1.windows系统下poppler工具缺失
文档加载、切分时通常会读取pdf的文件信息,涉及到pdf里的图片、文字读取,此时如果使用langchain的DirectoryLoader类等进行读取时,在windows系统下会使用到poppler的库,此时库的缺失会导致运行失败。
下载地址 https://github.com/oschwartz10612/poppler-windows/releases
导入方式 解压缩后将bin文件夹路径导入windows系统‘Path’变量,可在命令行验证是否成功
cmd pdfinfo -v
2.windows系统下tesseract工具缺失及相关支持数据的安装
下载地址 Home · UB-Mannheim/tesseract Wiki · GitHub
导入方式 下载后直接安装即可,安装完成后查看是否安装成功,若未识别,手动添加安装
根目录至系统‘Path’变量
cmd tesseract -v
数据缺失报错
Failed loading language \'eng\' Tesseract couldn\'t load any languages! Could not initialize tesseract.
这是因为安装的tesseract并不包括预训练数据,无法识别相关加载模块,需要额外下载数据: GitHub - tesseract-ocr/tessdata: Trained models with fast variant of the "best" LSTM models + legacy models
将下载的数据模块放入tessdata文件夹,根据目标语言引入到阅读器中,代码如下(这里如果没有设置目标语言阅读图片时会采取eng解码,遇中文可能乱码而提取不出信息)
loader = DirectoryLoader('E:\XXXXXXX',
glob="**/*.pdf",
loader_kwargs = {'languages': ['chi_sim','eng']}
)