RAG简单原理

最新推荐文章于 2025-09-17 00:30:00 发布

原创最新推荐文章于 2025-09-17 00:30:00 发布 · 361 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

大模型同时被 2 个专栏收录

172 篇文章

订阅专栏

机器学习

153 篇文章

订阅专栏

在这里插入图片描述

核心流程总结
通过提取搜索摘要并设计提示词调用 Ollama 接口是实现本地化知识问答（ RAG 应用）的核心思路，但需注意以下关键步骤和优化点：

基础流程实现

步骤 1 - 数据预处理：提取搜索摘要或文档关键信息（如使用 BM25、Embedding 向量检索等技术）。

步骤 2 - 提示词设计：将摘要与用户问题结合，通过以下模板注入上下文：

[System] 你是一个专业助手，请根据以下信息回答问题：
{搜索摘要}
[User] {用户原始问题}

示例代码（参考 Ollama 的 OpenAI 兼容接口）：

import requests 

response = requests.post(
    "http://localhost:11434/v1/chat/completions",
    json={
        "model": "deepseek-r1:1.5b",
        "messages": [
            {"role": "system", "content": "根据以下信息回答..."},
            {"role": "user", "content": "用户问题"}
        ]
    }
)

关键优化方向

提示工程：
- 添加分隔符（如 ---）区分上下文与问题，减少模型混淆。
- 明确指令（如“仅根据提供的信息回答，若无法回答请说明”），降低幻觉风险。
模型适配：
- 使用适合任务的模型（如 DeepSeek-R1 侧重推理，Llama2-Chinese 侧重中文理解）。
- 调整温度参数（temperature=0.3）控制生成结果的创造性。

典型问题与解决方案

问题	原因	解决方式
模型忽略搜索摘要	上下文过长或提示词结构混乱	精简摘要，使用 `[Context]` 标签分隔
生成结果包含无关信息	未限制模型输出范围	添加 `stop` 参数定义终止词（如 `\n##`）
响应速度慢	硬件资源不足或模型过大	量化模型（如选择 `q4_0` 版本）