如何识别pdf文档中的文字(图像识别)
直接处理pdf文档,来识别其中的文字比较困难,尝试过各种pdf的各种包,重要都是些处理格式的,或者只能读取当pdf文字可以选取的这类pdf文件,像那种扫描的pdf文档则不可以识别。
处理思路就是通过讲pdf文件的每一页转化为图片,然后再讲图片的中的文字,进行识别输出。这样的整体难度降低,也比较容易实现。
通过查阅资料,总结一下要点,给大伙留个参考
mac安装tesseract
通过查阅资料,mac安装的资料比较少,如果你是wins或linux(离线)的,可以直接查找相关的问题。
通过brew来安装的
ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
brew -v
brew install tesseract
出现下面的截图

tesseract -v
出现下面这样就安装成功了,可能每个人不一样(大体差不多)

万里长征第一步就可以了,我们还需要解决如何用python来用它,就有了pytesseract,那自然是需要安装的
pip install pytesseract
pip install pillow
然后建立一个py文件运行。
import pytesseract
from PIL import Image
image = Image.open('./image/images_2.png')
code = pytesseract
PDF转OCR图文识别

本文介绍了一种将PDF文档转换为图像并使用OCR技术进行文本识别的方法。通过使用tesseract和pytesseract库,可以有效地从扫描版PDF中提取文本。文章还详细介绍了安装过程、配置中文语言包的方法及注意事项。
最低0.47元/天 解锁文章
569

被折叠的 条评论
为什么被折叠?



