今天我总结了几个关于RAG系统的优化的策略方法,大家可以参考一下。当然,在这提醒一下大家,这些方法不见得一定适合你的RAG系统,你最好是根据你实际的场景针对性地去做调整,并且这个优化工作也并不能一蹴而就,而是需要持续优化。
对于RAG优化,无外乎就这几点:
1)找得准:用户问啥,它得从资料库捞出最相关的那几段“真材实料”。
2)答得对:基于找到的资料,生成准确、靠谱的答案,不能瞎编。
3)啥都懂:简单问题、复杂推理、总结归纳,各种类型都能应对。
4)反应快:别让用户等太久,嗖嗖地出结果。
5)脾气好:遇到用户问题模糊、有歧义甚至跑题,也能得体应对,不崩溃。
而我做对RAG做的优化,主要分成两部分:检索器、生成器。
检索器层面优化
*1)用户查询问题理解与改写*
目的是将用户提问的问题做进一步分析,让大模型更能理解用户的目的,这样大模型给出来的答案才更加贴合用户想要的答案。策略有:
- 关键词提取/扩展: 使用传统技术(TF-IDF, BM25)或小型模型提取核心关键词,或使用同义词库扩展。
- 查询重新/扩展:提示LLM将用户查询改写/扩展为更清晰、更完整、包含潜在相关术语的形式(例如:“
将用户查询改写为适合在知识库中进行文档检索的形式,补充可能缺失的关键上下文。
”)。 - 让LLM根据查询生成一个假设的理想答案文档,然后用这个生成的文档去检索真实的相关文档。这能更好地捕捉查询意图。
- 让LLM基于原始查询生成多个不同角度的相关问题,分别检索后合并结果(需注意效率)。
- 上下文感知改写: 在多轮对话中,利用对话历史重写当前查询。
2)嵌入模型优化
- 微调嵌入模型: 这是最有效的方法之一。使用你特定领域的语料(问答对、相关文档)对开源嵌入模型进行微调,使其向量空间更符合你的领域语义。对比学习损失函数(如
MultipleNegativesRankingLoss
)效果显著。 - 模型选择: 评估不同开源模型(
text-embedding-ada-002
,bge
,e5
,multilingual-e5
等)在你领域数据上的表现(使用检索评估指标)。考虑模型大小(速度 vs 效果)和多语言需求。 - 池化方法: 尝试不同的池化方法(Mean, CLS)对token embeddings进行聚合。
3)索引与分块优化
-
分块策略:
-
- 大小: 尝试不同块大小(128, 256, 512 tokens)。太小丢失上下文,太大引入噪声。没有最佳值,需实验!
- 方法: 固定大小滑动窗口?按句/段落/章节?按语义分割(使用嵌入模型或LLM)?
- 重叠: 在块之间添加重叠(10-20%)有助于保留跨块边界的上下文。
- 结构化分块: 利用文档结构(标题、章节、表格)进行更智能的分块。
- 多粒度索引: 索引不同粒度的块(句子、段落、小节),检索时融合结果或根据查询复杂度选择。
-
元数据: 为每个块附加丰富的元数据(来源文档ID、标题、章节、日期、作者、实体等)。在检索时利用元数据进行过滤或加权。
-
向量索引选择: 根据规模选择合适索引(
FAISS
,Annoy
,HNSW
,Pinecone
,Weaviate
,Milvus
,Qdrant
)。调优索引参数(nlist
,efConstruction
,efSearch
,M
等)以平衡召回率和速度。
4)检索算法优化
-
相似度度量: 尝试不同的相似度计算(Cosine, Dot Product, Euclidean)。
-
Top-K 设置: 检索多少个候选文档?太小可能遗漏关键信息,太大增加噪声和生成器负担。需与生成器能力平衡。
-
混合检索 (Hybrid Search):
-
- 加权融合 (RRF - Reciprocal Rank Fusion): 分别排序后融合两个列表的排名。
- 重新排序 (Re-ranking): 用向量检索结果作为初筛,再用关键词检索精排(或反之)。
- 串联: 先关键词过滤缩小范围,再进行向量检索。
-
- 结合语义与关键词: 将向量检索(语义)与传统关键词检索(如BM25/Elasticsearch)结合。方法:
-
查询转换: 如
Step-Back Prompting
,先让LLM生成一个更抽象的“概念性”问题,用这个问题检索,再将原始问题、检索结果和抽象问题一起给LLM生成最终答案。 -
多向量检索: 将单个文档表示为多个向量(摘要向量、标题向量、关键短语向量等),检索时融合这些向量表示的结果。
生成器层面优化
1)提示工程
- 清晰指令: 明确要求LLM基于且仅基于提供的上下文作答。强调不可捏造信息。
- 结构化输出: 要求LLM以特定格式(JSON, Markdown, 带引用的段落)输出答案,便于解析和后处理。
- 引用来源: 要求LLM在答案中明确指出引用了哪个文档片段(使用元数据如文档ID、标题)。
- 处理不确定性: 明确指导LLM在上下文不足或问题超出范围时如何回答(如“根据提供的信息,我无法确定…”)。
- 角色扮演: 让LLM扮演特定角色(专家、助手)可能改善语气和风格。
- 思维链 (CoT): 对于复杂推理问题,提示LLM展示推理步骤。
- 上下文压缩/聚焦: 在Prompt中显式指出最关键的部分,或让LLM先总结检索到的上下文再生成答案(增加开销但可能提升效果)。
- 迭代优化: 不断测试不同的提示模板和指令措辞。
2)LLM模型选择与配置
- 模型选择: 根据任务复杂度、预算、延迟要求选择合适模型(GPT-4-turbo, Claude, Gemini, Command R+, Llama 3, Mixtral 等)。更大模型通常效果更好但更慢更贵。
- 模型参数: 调整
temperature
(控制创造性,答案类任务通常设低如0.1-0.3),top_p
(核采样),max_tokens
(限制生成长度)。 - 微调LLM: 使用领域特定指令数据微调LLM,使其更擅长遵循你的RAG提示模板和利用上下文。指令微调是关键。
3)上下文管理
- 长度限制: LLM有上下文窗口限制。确保检索到的文档片段总长度 + Prompt 长度不超过限制。需要智能地选择或压缩Top-K结果。
- 上下文排序: 将最相关的文档片段放在Prompt的靠前位置可能对某些LLM有帮助。
- 上下文压缩/摘要: 在传入LLM前,先对检索到的长文档进行摘要压缩(可用另一个小型LLM)。风险是丢失细节。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。