如何识别pdf文档中的文字(图像识别)python

PDF转OCR图文识别
本文介绍了一种将PDF文档转换为图像并使用OCR技术进行文本识别的方法。通过使用tesseract和pytesseract库,可以有效地从扫描版PDF中提取文本。文章还详细介绍了安装过程、配置中文语言包的方法及注意事项。

如何识别pdf文档中的文字(图像识别)

直接处理pdf文档,来识别其中的文字比较困难,尝试过各种pdf的各种包,重要都是些处理格式的,或者只能读取当pdf文字可以选取的这类pdf文件,像那种扫描的pdf文档则不可以识别。
处理思路就是通过讲pdf文件的每一页转化为图片,然后再讲图片的中的文字,进行识别输出。这样的整体难度降低,也比较容易实现。
通过查阅资料,总结一下要点,给大伙留个参考

mac安装tesseract

通过查阅资料,mac安装的资料比较少,如果你是wins或linux(离线)的,可以直接查找相关的问题。
通过brew来安装的

ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
brew -v
brew install tesseract

出现下面的截图

tesseract -v

出现下面这样就安装成功了,可能每个人不一样(大体差不多)

万里长征第一步就可以了,我们还需要解决如何用python来用它,就有了pytesseract,那自然是需要安装的

pip install pytesseract
pip install pillow

然后建立一个py文件运行。

import pytesseract
from PIL import Image
image = Image.open('./image/images_2.png')
code = pytesseract
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值