一、RAG(检索增强生成)流程设计
RAG 旨在解决大模型知识时效性差、幻觉问题,核心是 **“检索 + 生成”** 结合,流程分为以下步骤:
1. 数据预处理与知识库构建
- 数据采集:获取结构化(数据库、表格)、半结构化(JSON、XML)、非结构化(文档、网页)数据;
- 数据清洗:去重、降噪、格式统一(如 PDF 转文本、HTML 解析);
- 文档分块:将长文本切分为语义完整的小块(Chunk),避免上下文丢失(如按段落、固定长度 + 重叠窗口);
- 向量化存储:用嵌入模型(如 BERT、Sentence-BERT、text-embedding-ada-002)将 Chunk 转为向量,存入向量数据库(如 Pinecone、Milvus、FAISS)。
2. 检索阶段
- 用户查询处理:将用户问题转为向量(与知识库同模型);
- 相似性检索:在向量数据库中检索与查询向量最相似的 Top-K 个 Chunk;
- 检索优化:结合关键词检索(BM25)、Hybrid Search 提升召回率,或通过重排序模型(如 Cross-BERT)优化结果。
3. 生成阶段
- Prompt 构建:将检索到的上下文、用户问题、系统指令拼接为 Prompt;
- 大模型推理:调用大模型 API(如 GPT-4、Claude、文心一言)生成回答,强制模型基于检索内容输出;
- 结果后处理:过滤冗余信息、格式化输出(如引用来源)。
流程图
plaintext
用户问题 → 问题向量化 → 向量数据库检索 → 上下文拼接 → 大模型生成 → 回答输出
↑ ↑
知识库构建(数据预处理→分块→向量化→存储)──────┘
二、MCP(多上下文提示)与 A2A(Agent-to-Agent)实战
1. MCP(多上下文提示)
MCP 解决单一上下文不足的问题,通过多轮提示、多源上下文协作提升任务效果,典型场景:复杂推理、多文档问答。
实战案例:多文档法律问答
- 步骤 1:将不同法律条文、案例文档分块并向量化存储;
- 步骤 2:用户提问后,检索相关法律条文(上下文 1)+ 相似案例(上下文 2);
- 步骤 3:构建多上下文 Prompt:
plaintext
基于以下法律条文和案例回答问题: 【法律条文】{检索到的条文} 【参考案例】{检索到的案例} 问题:{用户问题} 要求:严格依据上述内容

最低0.47元/天 解锁文章
1062

被折叠的 条评论
为什么被折叠?



