基于HuggingFace Smol-Course构建智能检索增强生成(RAG)系统-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00131/article/details/148488754

基于HuggingFace Smol-Course构建智能检索增强生成(RAG)系统

smol-course A course on aligning smol models. 项目地址: https://gitcode.com/gh_mirrors/smo/smol-course

引言

在当今信息爆炸的时代，如何让AI系统有效地获取并利用外部知识成为了一个重要课题。检索增强生成(Retrieval-Augmented Generation, RAG)技术应运而生，它将信息检索与大型语言模型相结合，显著提升了AI系统的知识准确性和时效性。本文将深入探讨如何基于HuggingFace Smol-Course项目构建更高级的"智能RAG系统"。

传统RAG系统的局限性

传统RAG系统通常采用简单的"检索-生成"流程：

接收用户查询
执行一次检索操作
将检索结果直接输入生成模型

这种方法存在明显不足：

检索过程单一，无法根据上下文调整搜索策略
仅依赖查询与文档的语义相似度，可能遗漏相关信息
缺乏对检索结果的验证和筛选机制

智能RAG系统的优势

智能RAG系统通过引入自主决策能力，显著提升了系统性能：

动态检索策略：系统可以根据上下文决定是否需要执行多次检索
查询优化：自动重写和优化搜索查询以提高检索质量
多源整合：能够同时利用网络搜索和本地知识库
结果验证：对检索内容进行相关性评估和准确性验证

实战：构建基础检索系统

让我们从构建一个简单的网络搜索系统开始：

from smolagents import CodeAgent, DuckDuckGoSearchTool, HfApiModel

# 初始化搜索工具和模型
search_tool = DuckDuckGoSearchTool()
model = HfApiModel()

# 创建系统实例
agent = CodeAgent(
    model = model,
    tools=[search_tool]
)

# 运行系统查询
response = agent.run(
    "可控核聚变技术有哪些最新进展？"
)
print(response)

这个基础系统的工作流程：

分析查询意图
执行网络搜索
综合搜索结果生成回答
存储交互记录以供后续参考

进阶：构建自定义知识库工具

对于专业领域应用，我们通常需要结合网络搜索和本地知识库：

from smolagents import Tool

class RetrieverTool(Tool):
    name = "retriever"
    description = "使用语义搜索从技术文档中检索与查询最相关的内容"
    inputs = {
        "query": {
            "type": "string",
            "description": "搜索查询，应与目标文档语义相近，使用肯定句式而非疑问句",
        }
    }
    output_type = "string"

    def __init__(self, docs, **kwargs):
        super().__init__(**kwargs)
        self.retriever = BM25Retriever.from_documents(
            docs, k=10
        )

    def forward(self, query: str) -> str:
        assert isinstance(query, str), "搜索查询必须是字符串"

        docs = self.retriever.invoke(query)
        return "\n检索到的文档:\n" + "".join(
            [
                f"\n\n===== 文档 {str(i)} =====\n" + doc.page_content
                for i, doc in enumerate(docs)
            ]
        )

这个增强版系统具备以下能力：

优先查询本地技术文档
必要时回退到网络搜索
整合多源信息
通过记忆系统维护对话上下文

知识库预处理关键技术

构建高效的知识检索系统需要精心处理原始文档：

import datasets
from langchain.docstore.document import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.retrievers import BM25Retriever

# 加载并过滤数据集
knowledge_base = datasets.load_dataset("m-ric/huggingface_doc", split="train")
knowledge_base = knowledge_base.filter(lambda row: row["source"].startswith("huggingface/transformers"))

# 创建文档对象
source_docs = [
    Document(page_content=doc["text"], metadata={"source": doc["source"].split("/")[1]})
    for doc in knowledge_base
]

# 文档分块处理
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,  # 每个块500字符
    chunk_overlap=50,  # 块间重叠50字符
    add_start_index=True,
    strip_whitespace=True,
    separators=["\n\n", "\n", ".", " ", ""],
)
docs_processed = text_splitter.split_documents(source_docs)

关键处理步骤：