RAG搭建流程

最新推荐文章于 2025-12-11 20:59:23 发布

原创最新推荐文章于 2025-12-11 20:59:23 发布 · 347 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

AI知识专栏收录该内容

41 篇文章

订阅专栏

从零搭建一个RAG（检索增强生成）系统，可以把它拆解成几个关键步骤，整个过程就像给大模型搭建一个“外脑”和“开卷考试”的流程。
数据准备与知识库构建
这是RAG的基石，决定了系统的“智商上限”。这一步主要在用户提问前完成，可以理解为“图书馆建档”。
       数据收集与清洗：首先，你需要收集所有相关的资料，比如PDF文档、产品手册、FAQ、网页内容等。然后进行清洗，去掉页眉页脚、水印广告等无用信息，确保数据干净。
       文本切分（Chunking）：这是最关键的一步之一。不能简单地按固定字数切分，否则可能切断语义。更推荐的方法是：
       语义切分：先按自然段、标题或章节切分，再根据句子边界细分。
       设置重叠窗口：比如每块重叠50-100字，防止因切分导致上下文断裂，信息丢失。
       文本向量化（Embedding）：将每个文本片段转换成高维向量，这是实现语义检索的关键。你可以选择通用模型如bge-large、E5-base，也可以根据领域微调模型。
       构建索引与存储：将向量和对应的原始文本存入向量数据库，如FAISS、Milvus或Chroma。这一步为后续的快速检索打下基础。
用户提问与答案生成
当用户提出问题时，系统会触发以下流程，可以理解为“学霸开卷答题”。
       召回（Retrieve）：将用户的问题转换为向量，在向量数据库中快速找到与问题最相关的几个文本片段（比如Top 10）。这一步速度要快，但准确率可能稍低，就像简历筛选。
       重排（Rerank）：为了提高准确性，会使用更复杂的模型（如cross-encoder）对召回的片段进行二次排序，选出最相关的几个（比如Top 3）。这一步更耗时，但能显著提升答案质量，就像面试筛选。
       生成（Generate）：将用户的问题和重排后得到的几个相关片段，组合成一个结构化的提示词（Prompt），然后输入到大语言模型（如GPT、Llama）中，生成最终的回答。
优化与迭代
搭建完基础流程后，还需要不断优化才能让系统真正好用。
       混合检索策略：可以结合向量检索和传统的BM25关键词匹配，取长补短，提升召回的全面性和准确性。
       Prompt工程：精心设计提示词模板，明确告诉大模型“根据以下资料回答问题”，并控制好上下文的长度，避免超出模型的处理能力。
       评估与监控：建立评估体系，比如通过MRR（平均倒数排名）、人工评分等方式，持续监控检索和生成的质量，并根据用户反馈和业务需求进行迭代优化。