（一）小结阶段学习的坑windows兼容poppler，tesseract

ustbhy

已于 2024-11-18 17:52:51 修改

阅读量325

点赞数 6

文章标签： python windows langchain

于 2024-11-18 17:00:20 首次发布

本文链接：https://blog.youkuaiyun.com/ustbhy/article/details/143848334

版权

1.windows系统下poppler工具缺失

文档加载、切分时通常会读取pdf的文件信息，涉及到pdf里的图片、文字读取，此时如果使用langchain的DirectoryLoader类等进行读取时，在windows系统下会使用到poppler的库，此时库的缺失会导致运行失败。

下载地址 https://github.com/oschwartz10612/poppler-windows/releases

导入方式解压缩后将bin文件夹路径导入windows系统‘Path’变量，可在命令行验证是否成功

cmd pdfinfo -v

2.windows系统下tesseract工具缺失及相关支持数据的安装

下载地址 Home · UB-Mannheim/tesseract Wiki · GitHub

导入方式下载后直接安装即可，安装完成后查看是否安装成功，若未识别，手动添加安装
根目录至系统‘Path’变量

cmd tesseract -v

数据缺失报错

Failed loading language \'eng\' Tesseract couldn\'t load any languages! Could not initialize tesseract.

这是因为安装的tesseract并不包括预训练数据，无法识别相关加载模块，需要额外下载数据： GitHub - tesseract-ocr/tessdata: Trained models with fast variant of the "best" LSTM models + legacy models

将下载的数据模块放入tessdata文件夹，根据目标语言引入到阅读器中，代码如下（这里如果没有设置目标语言阅读图片时会采取eng解码，遇中文可能乱码而提取不出信息）

loader = DirectoryLoader('E:\XXXXXXX', 
                         glob="**/*.pdf", 
                         loader_kwargs = {'languages': ['chi_sim','eng']}
                         )