要怎么把图片从PDF中提取出来呢？

2025-03-11 09:15:23

推荐回答（2个）

回答1：

1、我们需要PDFBox的Jar包，所以我们先在百度搜索一下“PDFBox”。点击“Apache PDFBox | A Java PDF Library”这个链接。
2、进入Apache PDFBox介绍页面，我们可以看到PDFBox可以实现这么多操作，我们这里只介绍如何提取文本，也就是第一项“Extract Text-Extract Unicode text from PDF files.”
3、然后我们点击左侧导航中的“Downloads”(下载)，我们进入下载页面。
此时我们希望下载两个Jar文件，一个是“pdfbox-app-1.8.10.jar”，另一个是“fontbox-1.8.10.jar”，你可以发现还有一个“pdfbox-1.8.10.jar”，为什么不下载它呢？上面那个名称中含有“app”的Jar，它是功能最完整的，所以下载它比较好。
4、将下载的这两个Jar文件加到程序的libraries中。说一下步骤，右击工程-->选择“Build Path”-->"Configure Build Path...",弹出窗口，选择左侧导航中的“Java Build Path”，再选择“libraries”选项卡，点击“Add External JARs”,再选择上刚刚下载的那两个Jar文件，点击“OK”即可。
5、接下来就是写程序，程序代码如图所示，输入源文件“a.pdf”，然后把源PDF中的所有文本都生成到了“aa.txt”目标文件中了。
6、程序源代码：
import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import org.apache.pdfbox.pdfparser.PDFParser;import org.apache.pdfbox.pdmodel.PDDocument;import org.apache.pdfbox.util.PDFTextStripper;public class PdfExtracter { public PdfExtracter() { } public String GetTextFromPdf(String filename) throws Exceptio

回答2：

怎样提取PDF图片