用PDFBOX读取PDF文件提取内容

使用PDFBox-0.7.3解析PDF文件并提取文本

最新推荐文章于 2025-09-06 11:33:00 发布

原创最新推荐文章于 2025-09-06 11:33:00 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Apache

java基础专栏收录该内容

59 篇文章

订阅专栏

本文详细介绍了如何使用PDFBox-0.7.3版本的Java库来解析PDF文件，并提取其内容。通过编写示例代码，展示了从指定路径的PDF文件中获取文本信息的过程。

部署运行你感兴趣的模型镜像

因为在apache官网上下载PDFBOX1.2jar包时，数据文件有丢失，未成功下载。所以用旧版本PDFBox-0.7.3的。

下载PDFBox-0.7.3后，可以找到需要的两个jar包，在不同的文件夹里。

1、准备两个jar包 PDFBox-0.7.3.jar，FontBox-0.1.0-dev.jar

2、

import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.pdfparser.PDFParser;
import java.io.*;
import org.pdfbox.util.PDFTextStripper;
import java.util.Date;

public class PdfExtracter {
public PdfExtracter() {
}

public String GetTextFromPdf(String filename) throws Exception {
  String temp = null;
  PDDocument pdfdocument = null;
  FileInputStream is = new FileInputStream(filename);
  PDFParser parser = new PDFParser(is);
  parser.parse();
  pdfdocument = parser.getPDDocument();
  ByteArrayOutputStream out = new ByteArrayOutputStream();
  OutputStreamWriter writer = new OutputStreamWriter(out);
  PDFTextStripper stripper = new PDFTextStripper();
  stripper.writeText(pdfdocument.getDocument(), writer);
  writer.close();
  byte[] contents = out.toByteArray();

  String ts = new String(contents);
  System.out.println("the string length is" + contents.length + "\n");
  return ts;
}

public static void main(String args[]) {
PdfExtracter pf = new PdfExtracter();
PDDocument pdfDocument = null;

  try {
   String ts = pf.GetTextFromPdf("d:\\test.pdf");
   System.out.println(ts);
  } catch (Exception e) {
   e.printStackTrace();
  }
}
}

3、在D盘准备一份test.pdf文件

4、运行以上代码

您可能感兴趣的与本文相关的镜像