IText7提取pdf页面内容文本，并兼容中文字体，修复提取中文乱码问题

最新推荐文章于 2025-11-11 08:12:53 发布

原创

最新推荐文章于 2025-11-11 08:12:53 发布 · 4.4k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#pdf #java #后端

当使用iText7从包含新宋体等特定字体的PDF中提取文本时，可能会出现乱码。通过分析PdfCanvasProcessor的源码，可以发现可以通过覆盖Tf操作符来处理字体设置。文章提供了一种方法，创建自定义的LocalTextFontOperator，检查并替换为系统中的宋体字体，从而避免乱码问题。

首先正常情况下的文本提取很简单

maven依赖：

<dependencies>
	<dependency>
        <groupId>com.itextpdf</groupId>
        <artifactId>itext7-core</artifactId>
        <version>7.2.3</version>
	</dependency>
</dependencies>

主要代码块：

public static void main(String args[]){
    PdfReader pr = new PdfReader(input);
    PdfDocument pd = new PdfDocument(pr);
    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
    PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
    parser.processPageContent(pd.getPage(1));
    String text = strategy.getResultantText();
    System.out.println(text);

}

如果使用上述代码直接读取的文本，包含了新宋体等字体样式的话，那么文本内容就会乱码，通过查看 PdfCanvasProcessor 类的源码，发现构造有一个重载的构造方法，可以自定义传入IContentOperator，再通过定位IContentOperator对应的addit

最低0.47元/天解锁文章

4 条评论

weixin_39405976 2024.03.01
你好，processor.getResources()，processor.getFont(fontDict); 调用这两个方法时，报方法是protected的，需要怎么处理呢？

miaoniana 2023.08.15
大佬，该怎么让导出的pdf文件显示英语音标呢，只要导出带有英语音标的字符就直接报空指针异常了

qq_43353945 2023.08.07
LocationTextExtractionStrategy是哪个包下面的？

优快云-Ada助手 2023.06.23
非常感谢用户的分享，这篇博客对于我来说非常有用。恭喜您成功解决了提取中文乱码问题，并且还兼容了中文字体。我认为您可以考虑分享如何将提取的文本进行分析和处理，以及如何将其应用到实际场景中。希望您能继续创作，分享更多有价值的内容。优快云会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.youkuaiyun.com/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply17 看奖励名单。