(一)小结阶段学习的坑windows兼容poppler,tesseract

1.windows系统下poppler工具缺失

文档加载、切分时通常会读取pdf的文件信息,涉及到pdf里的图片、文字读取,此时如果使用langchain的DirectoryLoader类等进行读取时,在windows系统下会使用到poppler的库,此时库的缺失会导致运行失败。

下载地址        https://github.com/oschwartz10612/poppler-windows/releases

导入方式        解压缩后将bin文件夹路径导入windows系统‘Path’变量,可在命令行验证是否成功

cmd                pdfinfo -v


2.windows系统下tesseract工具缺失及相关支持数据的安装

下载地址        Home · UB-Mannheim/tesseract Wiki · GitHub

导入方式        下载后直接安装即可,安装完成后查看是否安装成功,若未识别,手动添加安装
                       根目录至系统‘Path’变量

cmd                tesseract -v

数据缺失报错 

Failed loading language \'eng\' Tesseract couldn\'t load any languages! Could not initialize tesseract.

这是因为安装的tesseract并不包括预训练数据,无法识别相关加载模块,需要额外下载数据:     GitHub - tesseract-ocr/tessdata: Trained models with fast variant of the "best" LSTM models + legacy models

将下载的数据模块放入tessdata文件夹,根据目标语言引入到阅读器中,代码如下(这里如果没有设置目标语言阅读图片时会采取eng解码,遇中文可能乱码而提取不出信息)

loader = DirectoryLoader('E:\XXXXXXX', 
                         glob="**/*.pdf", 
                         loader_kwargs = {'languages': ['chi_sim','eng']}
                         )

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值