本文是项目——NFRA 智能问答系统实战过程中遇到的问题记录。
问题分类是按照 RAG 的开发过程,以及后续的迭代优化思路来进行划分的。
问题集,会不断地更新,更新标识:@modify date(@modify,作为一个关键字搜索;date,就是更新发布的当天日期)
1. 数据导入
问题1:运行时错误缺少相关驱动软件
问题描述
报错时代码版本:
from langchain_unstructured import UnstructuredLoader
file_path = r"D:/PythonLearn/codeWorkSpace/rag_learn/data/中华人民共和国反洗钱法.pdf"
loader = UnstructuredLoader(
file_path=file_path, # PDF文件路径
strategy="hi_res", # 使用高分辨率策略进行文档处理
# partition_via_api=True, # 通过API进行文档分块
# coordinates=True, # 提取文本坐标信息
)
docs = []
for doc in loader.lazy_load():
docs.append(doc)
print(docs)
Traceback (most recent call last):
File "D:\PythonLearn\myEnv\venv_rag_learn\lib\site-packages\pdf2image\pdf2image.py", line 581, in pdfinfo_from_path
proc = Popen(command, env=env, stdout=PIPE, stderr=PIPE)
File "D:\PythonLearn\myEnv\venv_rag_learn\lib\subprocess.py", line 971, in __init__
self._execute_child(args, executable, preexec_fn, close_fds,
File "D:\PythonLearn\myEnv\venv_rag_learn\lib\subprocess.py", line 1456, in _execute_child
hp, ht, pid, tid = _winapi.CreateProcess(executable, args,
FileNotFoundError: [WinError 2] 系统找不到指定的文件。
问题分析
代码使用了 langchain_unstructured 中的 UnstructuredLoader,并且指定了 strategy="hi_res",这个策略会触发 PDF 高分辨率解析,而 unstructured 库在底层依赖 pdf2image 来将 PDF 页面转换为图像,以便进行更精确的布局分析(如 OCR 或元素定位)。
解决方法
- 安装 Poppler,Windows 版本

最低0.47元/天 解锁文章
94

被折叠的 条评论
为什么被折叠?



