【问题集】——RAG项目实战：LangChain 0.3集成 Milvus 2.5向量数据库，构建大模型智能应用

最新推荐文章于 2025-08-10 19:51:42 发布

原创

最新推荐文章于 2025-08-10 19:51:42 发布 · 1k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python #langchain #milvus #软件工程 #个人开发

本文是项目——NFRA 智能问答系统实战过程中遇到的问题记录。

问题分类是按照 RAG 的开发过程，以及后续的迭代优化思路来进行划分的。

问题集，会不断地更新，更新标识：@modify date（@modify，作为一个关键字搜索；date，就是更新发布的当天日期）

1. 数据导入

问题1：运行时错误缺少相关驱动软件

问题描述

报错时代码版本：

from langchain_unstructured import UnstructuredLoader

file_path = r"D:/PythonLearn/codeWorkSpace/rag_learn/data/中华人民共和国反洗钱法.pdf"

loader = UnstructuredLoader(
    file_path=file_path,  # PDF文件路径
    strategy="hi_res",  # 使用高分辨率策略进行文档处理
    # partition_via_api=True,  # 通过API进行文档分块
    # coordinates=True,     # 提取文本坐标信息
)
docs = []

for doc in loader.lazy_load():
    docs.append(doc)
print(docs)

Traceback (most recent call last):
File "D:\PythonLearn\myEnv\venv_rag_learn\lib\site-packages\pdf2image\pdf2image.py", line 581, in pdfinfo_from_path
proc = Popen(command, env=env, stdout=PIPE, stderr=PIPE)
File "D:\PythonLearn\myEnv\venv_rag_learn\lib\subprocess.py", line 971, in __init__
self._execute_child(args, executable, preexec_fn, close_fds,
File "D:\PythonLearn\myEnv\venv_rag_learn\lib\subprocess.py", line 1456, in _execute_child
hp, ht, pid, tid = _winapi.CreateProcess(executable, args,
FileNotFoundError: [WinError 2] 系统找不到指定的文件。

问题分析

代码使用了 langchain_unstructured 中的 UnstructuredLoader，并且指定了 strategy="hi_res"，这个策略会触发 PDF 高分辨率解析，而 unstructured 库在底层依赖 pdf2image 来将 PDF 页面转换为图像，以便进行更精确的布局分析（如 OCR 或元素定位）。

解决方法

安装 Poppler，Windows 版本

最低0.47元/天解锁文章