Chroma-LangChain-Agent-完整问答实践案例

最新推荐文章于 2025-12-21 16:12:16 发布

原创

最新推荐文章于 2025-12-21 16:12:16 发布 · 573 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #人工智能 #大模型应用 #Agent #RAG

import os
from dotenv import load_dotenv

load_dotenv()

True

from langchain_core.documents import Document
from langchain.document_loaders import TextLoader, UnstructuredMarkdownLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQA
from langgraph.graph import StateGraph, END
import chromadb

全局配置 & 初始化

DOCS_PATH = "docs/"
CHROMA_COLLECTION_NAME = "doc_collection_1"
CHROMA_PERSIST_DIR = "data/"
CHROMA_SETTINGS = {
   
   
    "chroma_api_impl": "rest",
    "chroma_server_host": "localhost",
    "chroma_server_http_port": "8000",
}

# 初始化OpenAI Embeddings，使用text-embedding-ada-002
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

# 初始化OpenAI大模型 GPT-4o-mini
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# 文档切片器
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)

一、构建函数

1. 加载文档（txt, md, pdf）

def load_documents(path: str):
    """
    加载指定目录下所有支持格式的文档（txt, md, pdf），
    并为每个文档添加文件名作为 metadata，方便后续追踪和操作。

    参数:
        path (str): 目标目录路径。

    返回:
        List[Document]: 加载的所有文档对象列表，每个文档包含文本内容及 metadata。
    """
    print(f"[1] 开始加载目录 {
     
     path} 下所有支持的文档...")
    
    docs = []  # 用于存储加载的所有文档对象
    
    # 遍历目录及子目录中的所有文件
    for root, _, files in os.walk(path):
        for f in files:
            filepath = os.path.join(root, f)  # 组成文件完整路径

            print("文件：",filepath)
            
            # 根据文件后缀选择对应的加载器
            if f.endswith(".txt"):
                loader = TextLoader(filepath, encoding="utf-8")  # 加载文本文件
            elif f.endswith(".md"):
                loader = UnstructuredMarkdownLoader(filepath)   # 加载Markdown文件
            elif f.endswith(".pdf"):
                loader = PyPDFLoader(filepath)                  # 加载PDF文件
            else:
                # 不支持的文件格式，跳过处理
                print(f"跳过不支持的文件格式: {
     
     f}")
                continue
            
            # 使用选定加载器加载文档，返回一个文档列表
            loaded_docs = loader.load()
            print(f"加载文件 {
     
     f

最低0.47元/天解锁文章