PDF 图片转文字

因工作需将PDF图片转文字,手动打字效率低。介绍了几种转换方法:可使用在线OCR服务网站,如https://zhcn.109876543210.com/,每次免费转10页;若页数多于10页,可用PDFelement软件拆分;还可用CAJViewer软件进行文字识别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

因为工作需要整份说明书,参考别人家的东西,但是对方是pdf图片;手打字两个小时,也只打出来一页,痛苦之余想到了识别问题; 

真应了那句话,工欲善其事必先利其器,古人诚不欺我;效率大大上升!

 

1.使用在线ocr服务网站转换

推荐这家:https://zhcn.109876543210.com/

这家可以每次免费转10页,好像次数多了也不行。

 

2. pdf页数多于10页,可以使用PDFelement 软件进行拆分好

拆分在:页面-》提取,可选择需要的页数

 

然后ctrl+s保存即可。

 

3.使用CAJViewer 软件进行文字识别,可以在左上角找相应按钮或者工具-》文字识别,然后选中需要转换的部分

 

准确度还是可以的!

### 使用Java库实现PDF图像到Word文本换 对于将PDF文件中的图片换为Word文档中的文字,可以考虑使用OCR技术来识别图片中的文字并将其保存到Word文档中。以下是两种可能的选择: #### Spire.PDF for Java Spire.PDF for Java支持多种格式之间的换功能,在版本10.6.0增强了从PDF到SVG、Word和OFD的换能力[^1]。然而,该库本身并不直接提供OCR功能。 为了完成整个流程,建议结合第三方OCR工具如Tesseract OCR引擎一起工作。具体步骤如下所示: ```java import com.spire.pdf.*; import net.sourceforge.tess4j.ITesseract; import net.sourceforge.tess4j.Tesseract; public class PdfImageToWord { public static void main(String[] args) throws Exception { // 加载PDF文档 PdfDocument doc = new PdfDocument(); doc.loadFromFile("input.pdf"); Tesseract tesseract = new Tesseract(); StringBuilder sb = new StringBuilder(); // 遍历每一页提取图片并执行OCR操作 for (int i = 0; i < doc.getPages().getCount(); ++i){ PdfPageBase page = doc.getPages().get(i); List<PdfImageObject> images = page.extractImages(); for(PdfImageObject img : images){ BufferedImage bufferedImg = ImageIO.read(new ByteArrayInputStream(img.getImageData())); String resultText = tesseract.doOCR(bufferedImg); sb.append(resultText).append("\n"); } } // 创建新的Word文档并将结果写入其中 Document wordDoc = new Document(); Section section = wordDoc.addSection(); Paragraph paragraph = section.addParagraph(sb.toString()); wordDoc.saveToFile("output.docx", FileFormat.DocX); } } ``` #### Foxit PDF SDK for Windows (Java Library) 另一个选项是使用Foxit PDF SDK 8.4 for Windows (Java Library),它提供了强大的PDF处理能力和跨平台的支持[^2]。同样地,此SDK也不自带OCR功能,因此仍需额外集成Tesseract或其他类似的OCR解决方案来进行字符识别。 通过上述任一方法都可以有效地将嵌入于PDF内的图形化内容化为可编辑的文字形式存储至Word文档内。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值