说明
记录一个完整的 Java 示例,展示如何使用 PDFBox + Tess4J 从 PDF 中提取图片,并通过 OCR 识别图片中的文字,当前仅仅支持基础功能。
功能说明
- 读取一个 PDF 文件
- 将每一页渲染成图片(高分辨率)
- 使用 Tess4J 对每一页图片进行 OCR
- 打印识别结果
maven依赖
<!-- PDFBox -->
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.30</version>
</dependency>
<!-- Tess4J -->
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>5.11.0</version
Java用PDFBox+Tess4J从PDF提取图片OCR识别

最低0.47元/天 解锁文章
2292

被折叠的 条评论
为什么被折叠?



