大模型“记忆“不足？RAG技术给你一个“外挂大脑“！小白也能秒会的AI增强术-优快云博客

提示词工程(Prompt Engineering)的核心点是RAG（Retrieval-Augmented Generation）:

一种不训练/微调大模型（LLM），仅通过制作外挂“数据库”，并检索关键数据并入prompt，实现LLM生成内容增强的技术。

1.技术背景

1.1 大模型的记忆局限

大模型虽然”博学“，但记忆总是有限的，这带来以下缺陷：

“幻觉”：大模型有时会偏离事实，一本正经地胡说八道。如果给它“参考资料”并强迫它按资料内容推理，就能一定程度缓解这个问题。
私有数据：在大模型训练时未出现的数据，包括公司文档资料、个人笔记等，是大模型记忆范围之外的知识。通过外挂数据库，可以在提示词部分添加从未学习过的内容，让大模型在回答问题前，参考该部分内容。
时效性：大模型的知识是有截止日期的（比如只知道 2025 年5月以前的事）。外挂数据库可以实时更新最新的新闻或数据，以增加知识的时效性。

这里有个常识，就是不通过训练是没法让模型“记忆”更多内容的，比如注意力机制模型GPT，大部分参数是学会关于知识“注意力”的分布，达到基于已有数据的一种知识推理能力，而非记忆力。

1.2 LLM应用开发技术

1.2.1 RAG

用于加载客观事实/事件，类似笔记本与图书馆， 提供llm记不住精确细节、客观事实，即时发生事件， 也称为External Memory / Memory Controller。

1.2.2 输入端 Embedding

语义表征层，模型输入端类似其感官，反应词表与模型知识的映射关系， 可用于大模型适配新的字符，如扩展词汇量（学会中文、学会特定领域的专业术语）。

1.2.3 输出头 LM Head

用于约束输出任务，即改变大模型的身份特征 (Bert常用技术) 通过微调输出层，让模型在生成时更倾向于某些特定身份的用词频率。

1.2.4 Attention + LoRA。

在大模型知识和推理能力固定的情况下，实现模式迁移， 通过对attention增加低秩可训练参数，改变大模型的专业技能与“性格”特征， 改变大模型的回答腔调（风格）和处理特定任务的固定回答模式，例如回答风格 / 指定某种表达技能

1.3 RAG的特点

上述技术仅RAG是无需微调/训练，

即成本最低，性价比最高的技术，

也就是大模型落地中，最容易出效果的技术方案。

2.RAG

RAG技术为输入llm的prompt增加专属知识内容, 这内容通过检索一个外挂数据库得到，大体过程为：

文档切分 → 向量化 → 实体/关系抽取 → 知识图谱 + 向量库 → 多策略检索 → LLM 生成

这里涉及三种魔术：

Naive RAG
Hybrid/Light RAG
Graph-RAG

2.1 Naive（最经典 RAG）

实现步骤：

1. Query 向量化   将用户查询编码为语义向量表示。2. 全局向量相似度检索   在向量数据库中计算查询向量与所有文本片段向量的相似度，   选取 Top-K 相似文本片段。3. 基于检索结果的生成   将检索到的文本片段与查询拼接为提示词，   输入大语言模型生成最终回答。

符号化过程：

naive_query  ->query  ->chunks_vdb,  ->text_chunks

函数化过程(伪代码):

query → q_emb = embedding_func(query)  → chunk_ids = chunks_vdb.similarity_search(q_emb, k) → chunks = text_chunks.get(chunk_ids) → chunks拼成 prompt → LLM

2.2 Light / Hybrid RAG

这里查询用到了知识图谱（向量 + 图），但仅作为检索增强，不输出图结构，过程如图：

实现步骤：

1. Query 语义编码   将用户查询映射到向量空间，作为后续相似度计算的统一语义表示。2. 实体感知与候选实体扩展   从查询中识别潜在关键实体，并利用知识图谱对实体进行一跳关系扩展，   构建与查询语义相关的实体集合。3. 基于实体约束的候选文档召回   根据扩展后的实体集合，检索所有与这些实体关联的文本片段（chunks），   形成受实体约束的候选文档子集。4. 向量相似度筛选与重排序   在候选文档子集内，计算查询向量与文本片段向量的相似度，   并对文本片段进行排序，选取 Top-K 作为最终上下文。5. 基于检索上下文的生成   将排序后的文本片段与原始查询共同构造提示词（prompt），   输入大语言模型生成最终回答。

符号化过程 & 伪代码：

hybrid_query  ->query,  ->graph,  ->entities_vdb,  ->relationships_vdb,  ->text_chunksquery → entities = entity_aware(query) # entity embedding → related_entities = expand_entities(entities, graph) → candidate_chunks = chunks_by_entities(related_entities) → top_chunks = vector_search(query, candidate_chunks) → LLM

2.3 Graph-RAG

不仅查询用到了知识图谱，且输出图结构。

图结构信息包括实体关系路径、推理链、局部子图，以显式的上下文结构化内容输出，过程如图：

实现步骤：

1. 查询实体化与语义编码   将用户查询映射为语义向量表示，并识别其中的核心实体，   这些实体作为知识图谱检索和推理的起点(api)。2. 实体向量召回与图结构扩展   根据查询实体的向量表示，在实体向量索引中召回语义相似的实体，   并在知识图谱中沿关系边进行多跳遍历，构建与查询相关的子图。3. 子图约束下的文本片段聚合   将子图中的实体节点及其关联关系映射到文本片段（chunks），   聚合成结构化上下文，构成局部子图。4. 图感知的向量相似度筛选与排序   在子图约束的文本片段集合中，根据查询向量与片段向量的相似度进行排序，   选取推理路径最相关的片段作为最终上下文chunks。5. 基于图结构的生成   将结构化的文本片段与图结构信息(子图实体-关系信息)共同构造为提示词（prompt），   输入大模型，以引导其生成具有结构一致性的回答。

符号化过程：

minirag_query(  query,  graph,  entities_vdb,  entity_name_vdb,  relationships_vdb,  chunks_vdb,  embedding_func, # Graph-RAG的链接，完成推理)

伪代码：

query → entities = entity_aware(query)                  # 查询实体化 & 向量编码 → related_entities = vector_recall(entities)     # 基于向量召回语义相近实体 → subgraph = expand_entities_multi_hop(related_entities, graph)  # 知识图谱多跳扩展，构建子图 → candidate_chunks = chunks_by_subgraph(subgraph)  # 子图约束下聚合关联文本片段 → top_chunks = vector_rerank(query, candidate_chunks)  # 图感知向量筛选并排序 Top-K → LLM(top_chunks, subgraph)                       # 基于文本 + 图结构生成回答

知识库构造及应用
===========

3.1 Step-1：Extract Unique Contexts

完成数据清洗-去重-单元化

Raw Dataset   ↓[清洗 / 去重]  ← 你在 Step-0   ↓Documents

3.2 Step-2：Insert Contexts

关键步骤，完成 RAG 知识库构建将 静态语料 转换为 可动态检索的外部知识text ↓chunks ↓embedding ↓vector index ↓metadata 存储

3.3 Step-3：Generate Queries (测试集)

构造Query测试集（可以理解为用于评测而出的考试题），

输入为已知Context，检索不完整答案，即部分答案线索，

借助LLM, 构造 {问题:标准答案} ，即 (Q&A Pairs), 即输出问题

Context (原始长文本)           ↓Knowledge Base (切片 / 入库： chunk->embedding->metadata)           ↓Sample Fragments (抽取 K 个片段作为“出题素材”)           ↓Information Extraction (调用 LLM，让它识别文本中的 Entities -实体 和 Relationships -关系，提取线索 / 不完整答案)           ↓Generated Query (调用LLM ，扮演“出卷老师”考试题)

这一步生成的metadata是一个测试集，实现Query–Context 对齐，

用于实验指标计算以评测RAG的检索能力。

3.4 Step-4：Query (评测 or 应用)

这一步是接收用户的Query，

通过Query，从知识库中检索上下文，

构造新的prompt得到答案。

Query  ↓Retriever（LightRAG）  ↓Top-k Contexts  ↓Prompt Assembly  ↓LLM Generation

3.5 Step-5：自动化评估

对比【LLM生成的回答】与【标准答案】, 测量相似度/准确率

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述