【强烈收藏】RAG技术栈深度解析:大模型应用开发者的必备技能

写在前面

在大模型应用开发领域,RAG技术栈在其中具有很重要的地位,本文主要通过介绍带大家了解一下什么是RAG技术,RAG技术栈的整体流程,希望对于想要学习RAG技术的你提供帮助。

什么是RAG

RAG,全称为Retrieval-Augmented Generation(检索增强生成),是一种结合了 “信息检索” 与 “生成式 AI” 的混合 AI 技术。它的核心目标是解决传统大语言模型(LLM,如 GPT、LLaMA 等)的两大关键局限 ——知识时效性不足事实准确性偏差(幻觉),通过 “先检索外部权威信息,再基于检索结果生成回答” 的逻辑,让 AI 输出更精准、更具时效性和可信度的内容。

为什么需要RAG

传统 LLM(如 GPT、LLaMA)因自身特性,难以满足实际场景需求,具体局限如下:

  1. 知识过时且固定:仅包含训练数据截止前的 “静态知识”,无法获取实时或者最新信息;
  2. 易产生 “幻觉”:基于概率生成 “听起来合理” 的内容,可能编造事实、混淆信息,且无法验证回答准确性;
  3. 无法对齐私有 / 场景化需求:训练数据是通用公开内容,无法调用企业内部文档、个人笔记、行业专属资料等 “私有知识”。

RAG的核心

关键组成部分核心功能常见技术 / 工具选型核心评价指标
知识数据源提供 RAG 所需的外部知识,是答案准确性的基础结构化数据(MySQL、PostgreSQL)、非结构化数据(PDF、TXT)、API 接口(如新闻 API)数据覆盖率、时效性、准确性
文档分割器(Chunkers)将长文档拆分为语义完整的片段LangChain(RecursiveCharacterTextSplitter)、Haystack(SentenceSplitter)Chunk 语义完整性、平均长度适配性
Embedding 模型将文本转化为语义向量闭源:OpenAI Embedding、Anthropic Embedding;开源:Sentence-BERT、BERT-Chinese向量语义区分度、生成速度、维度大小
向量数据库存储向量并实现高效相似性检索闭源:Pinecone、Weaviate、Qdrant(托管版);开源:FAISS(轻量)、Milvus(大规模)检索延迟(<100ms)、召回率(>95%)
大语言模型(LLM)基于检索到的知识生成自然语言答案闭源:GPT-4、文心一言、通义千问;开源:Llama 3、Mistral、Qwen答案准确性、幻觉率、语言流畅度

RAG步骤

RAG大概分为两个步骤:知识库构建和知识库的使用,下面将对这两个步骤进行详细介绍。

1.知识库的构建

该阶段为后续在线响应做准备,核心是将原始数据转化为结构化、高检索效率的知识索引,避免在线时重复处理数据导致延迟,共 4 个关键步骤:

  1. 数据采集与清洗:收集目标领域的知识源(如 PDF、文档、数据库表、网页文本等),去除冗余(重复内容)、修正错误(乱码、格式问题),保证数据质量;
  2. 文档分割(Chunking):按 “语义完整 + 适配 LLM 上下文窗口” 原则,将长文档拆分为片段(Chunk),常用策略包括 “固定长度分割(带前后文重叠)” 或 “语义分割(按段落 / 章节)”,避免语义断裂;
  3. 文本向量化(Embedding):用 Embedding 模型(如 OpenAI Embedding、Sentence-BERT)将每个 Chunk 转化为数值向量,把 “语义相似性” 转化为 “向量空间距离”,为检索做准备;
  4. 构建向量索引:将所有 Chunk 的向量存入向量索引结构(如 FAISS、Milvus、Pinecone),替代 “暴力遍历”,实现毫秒级相似性检索。
2. 知识库的使用

该阶段是 RAG 与用户交互的核心,实时根据用户查询匹配知识并生成可靠答案,共 5 个关键步骤:

  1. 用户查询理解:优化原始查询(如纠错、提取关键词、扩展同义词),明确检索目标(例:将 “2024 新能源车销量同笔增长” 修正为 “2024 中国新能源汽车销量同比增长”);
  2. 相似性检索:将优化后的查询转化为向量,通过向量数据库检索 “距离最近” 的 Top-N 个相关 Chunk(即与问题最匹配的外部知识),部分场景会结合关键词检索(如 BM25)做 “混合检索”;
  3. 知识过滤与排序:二次筛选检索结果(去除重复、无关内容),并用轻量模型(如 Cross-Encoder)重新排序,提升知识精准度;
  4. Prompt 构建:将 “用户查询 + 筛选后的相关 Chunk + 指令(要求答案仅来自参考知识)” 组合成 LLM 可理解的 Prompt;
  5. LLM 生成与输出:将 Prompt 输入 LLM(如 GPT-4、Llama 3),模型基于检索到的外部知识生成答案,可选标注知识来源以提升可追溯性。

RAG相关的技术栈

1.知识源与数据处理层

该层负责将非结构化(文本、PDF 等)、半结构化(表格、JSON 等)数据转化为机器可理解的 “检索友好型” 格式,是 RAG 的 “知识储备基础”。

技术类别核心组件 / 工具功能说明
数据采集工具- 网络爬虫:Scrapy、Beautiful Soup、Selenium - 文档解析:PyPDF2、pdfplumber、Unstructured - 数据库连接:SQLAlchemy(关系型)、PyMongo(非结构化)从网页、本地文档(PDF/Word/PPT)、数据库中采集原始知识数据,解决 “知识从哪来” 的问题。
数据清洗与预处理- 文本清洗:NLTK、spaCy(去停用词、标点) - 格式标准化:LangChain DocumentLoader、LlamaIndex Reader - 数据去重:SimHash、MinHash去除噪声数据(如乱码、重复内容),统一数据格式,为后续分词、嵌入做准备。
数据结构化处理- 信息抽取:spaCy(实体识别)、AllenNLP(关系抽取)、LangChain StructuredTool - 表格处理:Pandas、Tabula(PDF 表格提取)将非结构化文本中的关键信息(实体、关系、事件)或半结构化表格转化为结构化数据,提升检索精度。
2.向量工程层

该层通过 “向量嵌入(Embedding)” 将文本转化为高维向量,再通过向量数据库存储和索引,是 RAG “快速找到相关知识” 的关键

技术类别核心组件 / 工具功能说明
向量嵌入模型- 通用模型:OpenAI Embedding(text-embedding-3-small)、Sentence-BERT(all-MiniLM-L6-v2) - 领域模型:BioBERT(医疗)、CodeBERT(代码)、ERNIE(中文)将文本(句子 / 段落)转化为语义向量,确保 “语义相似的文本向量距离近”,支撑语义检索(而非关键词匹配)。
向量数据库- 开源:Milvus、Chroma、FAISS(轻量)、Qdrant、Weaviate - 商业:Pinecone、Weaviate Cloud、Zilliz Cloud专门存储向量数据,提供高效的近似最近邻(ANN)检索能力(如 IVF、HNSW 索引),解决 “百万级向量快速匹配” 问题。
向量索引优化- 索引算法:HNSW(高召回)、IVF-Flat(高精度)、FAISS IVF-PQ(压缩存储) - 量化技术:Scalar Quantization、Product Quantization通过索引算法降低检索时间复杂度,通过量化技术减少向量存储占用,平衡 “检索速度” 与 “精度”。
3.检索策略层

该层负责设计 “从向量库中筛选相关知识” 的逻辑,不仅依赖语义向量,还通过多策略优化确保 “找得准、找得全”。

技术类别核心组件 / 工具功能说明
基础检索方法- 语义检索:基于向量数据库的 ANN 检索 - 关键词检索:Elasticsearch、Solr(倒排索引) - 混合检索:Elasticsearch + 向量插件(如 ES-HNSW)语义检索解决 “意图匹配”,关键词检索解决 “精确术语匹配”,混合检索结合两者优势(如 “糖尿病” 语义匹配 +“胰岛素” 关键词过滤)。
高级检索策略- 多轮检索(Multi-turn Retrieval):LangChain RetrievalQAWithSourcesChain - 分层检索(Hybrid Hierarchical):先粗筛文档→再精筛段落 - 重排序(Reranking):Cross-Encoder(BERT-based)、Cohere Rerank API多轮检索通过用户追问迭代优化结果;分层检索降低计算成本;重排序对初筛结果二次打分(如 “相关段落排前”),提升精度。
检索过滤机制- 元数据过滤:LangChain MetadataFilters(按 “文档类型 / 发布时间” 筛选) - 权限过滤:Milvus Access Control、Weaviate Auth基于业务需求筛选知识(如 “只检索 2023 年后的医疗文献”),或控制知识访问权限。
4.生成与增强层

该层是 RAG 的 “输出端”,负责将检索到的知识与大模型结合,生成 “有依据、无幻觉” 的回答。

技术类别核心组件 / 工具功能说明
基础大模型(LLM)- 开源模型:Llama 3(70B)、Mistral 8x7B、Qwen-72B - 闭源 API:GPT-4o、Claude 3、Gemini 1.5提供 “理解检索知识 + 生成自然语言回答” 的核心能力,开源模型适合私有化部署,闭源 API 适合快速验证。
提示工程(Prompt Engineering)- 提示模板:LangChain PromptTemplate、LlamaIndex Prompt - 思维链(CoT):Few-shot CoT、Zero-shot CoT - 知识注入:将检索到的 “知识片段 + 来源” 嵌入 Prompt通过模板规范输入(如 “基于以下知识回答:{retrieved_context}\n 问题:{user_question}”),通过 CoT 引导 LLM 逻辑推理,减少 “幻觉”。
回答增强技术- 来源引用:LangChain CitationQATool、LlamaIndex CitationGenerator - 多模态生成:GPT-4o Vision(结合图片知识)、Gemini Pro(文本 + 图片)为回答添加 “知识来源标注”(如 “参考文档 1:XXX”),提升可信度;支持多模态知识(图片、表格)的生成融合。
5.系统集成与框架层

该层提供 “开箱即用” 的 RAG 全流程框架,封装数据处理、检索、生成等模块,简化工程落地难度。

技术类别核心组件 / 工具功能说明
全流程 RAG 框架- LangChain:最流行框架,支持 “DocumentLoader→Embedding→Retriever→LLM” 全链路,生态丰富(插件 / 工具多) - LlamaIndex:专注 “知识索引”,优化长文档检索(如自动分块),适合复杂知识图谱场景 - Haystack:模块化设计,支持 Pipeline 可视化,适合工业级部署无需从零开发,通过调用框架 API 快速搭建 RAG 原型(如 LangChain 5 行代码实现基础 RAG)。
低代码 / 可视化工具- Flowise:LangChain 可视化拖拽平台 - LlamaIndex Chat Engine:开箱即用的 RAG 对话界面 - Steamship:托管式 RAG 平台,支持一键部署非技术人员可通过拖拽配置 RAG 流程;托管平台减少服务器部署、模型运维成本。
多模态 RAG 框架- LlamaIndex MultiModalReader、LangChain MultiModalPromptTemplate - Florence-2(微软)、mPLUG-Owl(多模态理解)支持图片、音频、视频等非文本知识的检索与生成(如 “检索产品图片 + 生成使用说明”)。
6.评估与运维层

该层负责监控 RAG 系统的 “检索精度”“生成质量” 和 “运行效率”,持续优化系统性能。

技术类别核心组件 / 工具功能说明
效果评估指标- 检索评估:Recall@k(前 k 个结果是否包含正确知识)、Precision@k(前 k 个结果的准确率) - 生成评估:ROUGE-L(与标准答案的相似度)、BLEU(流畅度)、Faithfulness(无幻觉率,如 Factuality Score)量化 RAG 效果(如 “Recall@5=90%” 表示前 5 个检索结果 90% 包含正确知识),定位优化点。
评估工具- RAGAs(开源):专门评估 RAG 的 “检索相关性、生成忠实度、回答有用性” - TruLens:监控 RAG 全链路(检索→生成),支持归因分析 - Hugging Face Evaluate:提供 ROUGE、BLEU 等标准化评估函数自动化评估 RAG 系统,替代人工打分(如 RAGAs 可批量测试 1000 个问题的无幻觉率)。
运维与监控- 模型监控:Prometheus + Grafana(监控 LLM 响应时间、向量检索耗时) - 日志管理:ELK Stack(Elasticsearch+Logstash+Kibana) - 迭代优化:LangSmith(LangChain 生态,跟踪 Prompt / 检索结果迭代)实时监控系统响应速度、错误率;通过日志定位 “检索失败”“生成幻觉” 的原因;记录迭代历史。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

图片

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值