Java中使用pdfbox提取PDF文件中的内容

y_bccl27

已于 2023-06-19 09:48:20 修改

阅读量1.9k

点赞数

分类专栏：文件处理文章标签： java

于 2022-02-12 11:50:14 首次发布

本文链接：https://blog.youkuaiyun.com/y_bccl27/article/details/122894235

版权

文件处理专栏收录该内容

14 篇文章

订阅专栏

该博客展示了如何利用Apache PDFBox库读取PDF文件内容，并通过正则表达式提取特定数据。代码示例中，作者创建了一个名为`PdfUtil`的工具类，用于从指定的PDF文件路径中提取文本。然后在`Demo`类的`main`方法中，调用`PdfUtil.readText`方法读取`demo.pdf`的内容，并使用正则表达式`\w{2}

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引入pdfbox依赖，其版本号为1.8.10

<dependency>
	<groupId>org.apache.pdfbox</groupId>
	<artifactId>pdfbox</artifactId>
	<version>1.8.10</version>
</dependency>

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

public class PdfUtil {

    /**
     * 功能描述：从指定的文件路径中获取PDF文件的内容
     */
    public static String readText(String filePath)throws IOException {
        File file =new File(filePath);
        FileInputStream inputStream = new FileInputStream(file);
        PDDocument document = PDDocument.load(inputStream);
        PDFTextStripper stripper=new PDFTextStripper();
        stripper.setSortByPosition(true);
        String result=stripper.getText(document);
        document.close();
        return result;
    }
}

测试文件demo.pdf中的内容为：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Demo {

    public static void main(String[] args) throws Exception{
        String filePath="D:\\demo.pdf";
        String content=PdfUtil.readText(filePath);
        //System.out.println("全部数据:"+content);
        // 正则表达式进行数据内容提取
        String regular = "\\w{2}-\\w{2}-\\w{6}";
        Pattern pattern = Pattern.compile(regular);
        Matcher matcher = pattern.matcher(content);
        if (matcher != null && matcher.find()) {
            System.out.println("提取到数据："+matcher.group());
        } else {
            System.out.println("未提取到数据");
        }
    }
}

执行上述代码，其输出结果为：