使用Tesseract-OCR识别图片中的文字并生成双层PDF

最新推荐文章于 2025-07-04 10:41:51 发布

原创

最新推荐文章于 2025-07-04 10:41:51 发布 · 1w 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

识别图片中的文字并不是很困难。如果自己训练一个文字识别的深度学习程序去识别也是可以，但是太费劲。

Tesseract-OCR是一个开源的文字识别引擎，并且支持包括中文在内的多国语言。只要将语言配置上去，就可以识别对应的语言。

如果是印刷字体，识别是没有问题的，几乎是100%准确识别，一般用于识别印刷体的话是不需要再另外训练的，如果要识别手写体就需要额外的训练，这部分以后有时间再研究。

下面是项目下载地址：

源文件地址：https://github.com/tesseract-ocr/tesseract

安装文件地址：https://github.com/UB-Mannheim/tesseract/wiki

1、安装Tesseract-OCR

我们先安装测试Tesseract-OCR，看看到底是怎么使用的。

>语言包：首先下载下来，双击安装，安装过程中注意选择语言包，要勾选chinese-simple；

>配置环境变量：安装完成之后，会生成文件夹：C:\Program Files (x86)\Tesseract-OCR，将此路径添加到环境变量；

2、使用

ouput_5是文件名，如果后面有pdf则生成双层pdf，如果后面没有则生成txt。

3、页码识别

页码识别时整个页面输入识别效果不好。最

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。