RAG教程看了 100 篇,为什么还是做不好?

前言

RAG教程满天飞。随便搜一下,“手把手教你搭建RAG”、“10分钟跑通RAG”、“RAG最佳实践”……看起来很简单对吧?

但真正上手就会发现:教程里的demo跑得飞起,换成自己的文档就拉胯。

为什么?

因为大多数教程在教你怎么跑通,而不是怎么做好。它们会告诉你用什么向量库、怎么调Top-k、怎么写Prompt——但这些都是"能跑起来"的60分线,不是"效果好"的90分线。

我研究了一周RAG,发现真正决定效果的是两道坎:

  • 第一道坎:解析层——看得见的坎,你的文档有没有被正确解析
  • 第二道坎:检索层——看不见的坎,检索策略的调优没有标准答案

解析层是门槛,做不好是0分;检索层是天花板,从60到90全靠这里。

这篇文章不是另一个"跑通RAG"的教程,而是我对这两道坎的理解,以及架构选型、框架对比、企业落地的判断。

有偏差欢迎拍砖。


一、第一道坎:解析层

大多数教程跳过这个环节,直接教你怎么切块、怎么检索。但如果文档解析就是错的,后面全白搭。

1.1 RAG七阶段Pipeline

RAG系统可拆解为七个阶段:

阶段核心任务标准化程度启动门槛落地上限核心痛点
1. 数据接入连接数据源工程繁琐。OA三巨头虽有API但取内容难;老旧私有系统(OA/ERP)基本靠定制或人工导出
2. 解析清洗非标转结构化极低极高决定成败。复杂PDF、表格、公式尚无完美解析方案,数据洗不干净,后续算法再强也是徒劳
3. 分块索引语义切片语义断裂。简单按字数切分会导致上下文丢失;引入语义切分成本较高
4. 检索策略召回+重排序极高易学难精。跑通流程仅需几行代码,但要解决"查得准"(多跳推理/精确匹配)极度依赖调优
5. 上下文构建提示词组装窗口博弈。长文本下的"迷失中间"问题,随着长窗口模型普及,难度略有下降
6. 生成回答LLM生成极高极低同质化严重。调用通用大模型API即可,除特定行业微调外,各家能力差异不大
7. 效果评测体系化验收重建设轻验收。缺乏体系化的基准测试集,导致优化方向不明,迭代全凭体感

从这张表能看出什么?

两个"极高"落地上限的环节:解析清洗检索策略。这就是我说的两道坎。

另外注意效果评测:启动门槛低,但落地上限高(认真做起来不简单)。大多数团队选择跳过,结果就是优化全凭体感,改了也不知道对不对。

1.2 为什么「解析」最难标准化?

数据现实:大量企业数据仍以PDF、扫描件、富文本为主,结构混乱。

行业差异:不同领域有不同的复杂文档——

行业典型复杂文档
金融财报、合同条款、嵌套表格
医疗检验报告、多语言混排
技术规格书、流程图、公式

技术栈复杂:解析不是单一技术,而是多层叠加——OCR → 版面分析 → 表格结构识别 → 领域规则 → 质量

评测。还要处理页眉页脚、脚注、跨页表格、嵌套列表、编号错乱……

结论:这不是按字数机械切分就能解决的问题。

1.3 商业化逻辑:为什么都在解析环节收费

三个字:难、脏、贵

特征说明
技术栈复杂,需OCR+版面+表格+多模态多管线协同
需要大量标注数据、领域经验规则、后处理逻辑
训练/微调多模态模型,构建数据处理流水线成本高

看看头部玩家怎么收费的

LlamaIndex推出的LlamaCloud,核心卖点就是LlamaParse——一个文档解析服务。定价模式很直接:按页收费,每页几美分。复杂文档(嵌套表格、扫描件、多语言)价格更高。

为什么客户愿意买单?因为价值主张极其清晰:

  • • “你的PDF解析成一坨屎,我帮你解析成结构化数据”
  • • “跨页表格、嵌套表格、扫描件,我都能处理”
  • • “你自己搞需要养一个团队,用我的服务按页付费”

相比之下,“我们检索更聪明”、"我们重排序多加了一层"这种卖点,客户根本没感知。你说准确率提升5%,客户问:怎么证明?

而且检索层的技术大多是开源标准方案——向量库有Milvus、Qdrant、pgvector,重排序有开源模型,混合检索也不是秘密。你能做的,别人也能做。没有技术壁垒,就很难收费。

这就是为什么解析层容易商业化,检索层不容易

1.4 对下游的影响:Garbage In, Garbage Out

解析质量对RAG效果的影响是质变级别的:

  • • 表格解析错误 → 检索召回错误信息 → 生成答案胡说八道
  • • 跨页内容断裂 → 上下文不完整 → 回答片面或矛盾
  • • 格式丢失 → 层级关系消失 → 无法做结构化检索

一句话:解析是RAG的「地基」,地基歪了,上面盖什么都白搭。


解析层是RAG的第一道坎——看得见的坎。

文档解析错了,一眼能看出来;解析对了,至少能拿60分。这道坎的特点是:难,但有解。砸钱砸人,总能搞定。

另外别忘了评测。大多数RAG项目死在"不知道哪里出了问题",根本原因是没有评测体系。后面会专门讲这个。

60分到90分,靠的是下一道坎。


二、第二道坎:检索层

2.1 为什么检索层更难?

解析层是工程问题,检索层是调优问题。

维度解析层检索层
难度类型确定性的难不确定性的难
特点脏、累、但有解玄学、组合爆炸、没有标准答案
评测容易(对不对一眼看出来)困难(什么叫"检索好"?)
投入产出砸钱能解决砸钱不一定有用

检索层的痛苦在于:

  • Top-k设多少? 设3可能漏信息,设10可能引入噪音
  • Chunk size怎么定? 256还是512还是1024?没有标准答案
  • 要不要Rerank? 加了延迟上升,不加准确率差
  • 混合检索权重怎么配? BM25和向量各占多少?

每个参数都能调,但调了也不知道对不对。80%的case好调,剩下20%的边界case能把人逼疯。

举个真实的例子

用户问"Q3销售额是多少",你的RAG返回了Q2的数据。为什么?

可能是:

  • • 向量相似度上,"Q3销售额"和"Q2销售额"几乎一样
  • • 恰好Q2那段内容更长、信息更密集,得分更高
  • • 或者根本就是解析问题——Q3的表格解析错了

你怎么判断是哪个环节出了问题?只能一层一层排查。而且修了这个case,可能又搞坏了另一个case。

这就是第二道坎:看不见的坎。你以为RAG跑通了,但效果就是上不去,又说不清问题在哪。

2.2 检索层的核心优化方向

好消息是,虽然没有银弹,但有一些成熟的优化方向。

2.3 Naive RAG:能用但局限明显

架构:文档 → 切块 → 向量化 → 向量库 → Top-k检索 → LLM生成

适用场景:简单问答、小规模文档(<100篇)、原型验证

优势:实现简单,开源方案成熟,成本低

致命局限

问题说明
检索准确率低语义漂移,"Q3财报"可能匹配到Q2、Q4
上下文碎片化切块太小信息不足,太大检索不准
无法处理复杂查询多跳推理(需要串联多个信息点才能回答)、对比分析搞不定
对文档结构无感知层级关系、表格结构全丢失

2.4 Advanced RAG:三阶段优化

核心思路:在Naive RAG的基础上,针对检索前、检索中、检索后三个阶段做优化。

这里只列最常用的技术,实际上每个阶段都有大量变体和组合,论文层出不穷。不用全学,挑适合你场景的用。

检索前优化

技术原理解决的问题
查询改写LLM改写用户问题,使其更适合检索用户表达不清晰
查询扩展扩展同义词、相关词召回不全
查询拆解把复杂问题拆成子问题,分别检索复杂问题难以一次命中
HyDE先让LLM生成假设性答案,用答案去检索问题和文档的语义空间不匹配

其他还有:查询路由(根据问题类型选不同检索器)、意图识别、查询分类等。

检索中优化

技术原理适用场景
层级检索先检索文档摘要,再检索具体段落多文档(100+)
句子窗口用单句做检索,返回时扩展上下文需要精确匹配+上下文
混合检索BM25(关键词)+ 向量(语义)并行需要精确匹配+语义理解
父子chunk检索用小chunk,返回用大chunk(父chunk)精确召回+完整上下文

其他还有:多路召回、向量模型微调、动态chunk策略等。

检索后优化

技术原理效果
重排序用更精细的模型对检索结果重新打分显著提升准确率
压缩压缩检索到的上下文,去除冗余减少token消耗
过滤基于规则/模型过滤低质量结果减少噪音

其他还有:结果融合、多样性优化、上下文重组等。

关键认知:这些技术不是越多越好。每加一层都有成本(延迟、复杂度、维护负担)。先把基础的做好(混合检索+重排序),再根据具体问题加对应的优化。

2.5 Modular RAG:从固定流程到可编排模块

核心思路:不再是固定的「检索→生成」流程,而是把RAG拆成可插拔模块,自由编排。

关键特征

  • • 模块独立,可单独替换/升级
  • • 流程可编排(支持条件分支、循环)
  • • 支持并行执行

适用场景:多类型查询需要不同处理流程、需要灵活实验不同组合、生产环境需要模块级监控

优势:灵活性高、便于A/B测试和迭代、模块级可观测性

劣势:架构复杂度上升、需要更多工程投入、调试难度增加

2.6 Graph RAG:知识图谱增强

核心思路:用知识图谱补充向量检索的盲区——实体关系和多跳推理

向量检索的盲点

举个例子:在一个企业知识库里搜「谁负责Project Titan?」

方式过程结果
向量检索语义匹配 → 返回相关段落可能返回项目介绍、项目进度,但就是没有负责人
知识图谱查询 (人)-[负责]->(Project Titan)直接返回:张三

为什么向量检索找不到?因为"张三负责Project Titan"这句话可能根本不存在于任何文档中。它是散落在各处的:组织架构图里有张三是PM,项目文档里有Project Titan的描述,但没有一句话把两者直接关联起来。

知识图谱的三大优势

优势示例
多跳推理「谁是Project Titan负责人的上级?」→ 张三 → 张三的汇报线 → 李总,一次查询搞定
实体消歧公司有两个「李明」,根据部门、项目上下文匹配正确的那个
时间推理「去年这个时候谁负责这个项目?」→ 带时间属性的关系

什么时候该用Graph RAG?

适用场景:

  • • 需要多跳推理(串联多个信息点才能回答)
  • • 实体关系密集的领域(企业组织架构、供应链网络、学术论文引用网络、金融股权关系)

不适合:

  • • 非结构化长文本(小说、博客)
  • • 没有明确实体的抽象概念讨论
  • • 纯技术文档(API文档、代码注释)

劣势:构建成本高(需要实体抽取、关系抽取)、维护成本高(知识图谱要持续更新)、实体抽取质量直接影响效果

2.7 Agentic RAG:智能体化检索

核心思路:让智能体自主决策检索策略,而非固定流程。

与传统RAG的本质区别

维度传统RAGAgentic RAG
决策者开发者预设规则智能体自主决策
检索次数固定(通常1次)动态(按需多次)
策略选择固定流程根据问题动态选择
错误处理自我评估、重试、换策略

一个典型例子:Claude Code

Anthropic的Claude Code就是Agentic RAG的典型应用。当你让它帮你改代码时,它会:

    1. 先判断需要看哪些文件(自主决策)
    1. 读取相关代码(检索)
    1. 发现信息不够,再去看其他文件(多轮检索)
    1. 改完之后自己跑测试,发现报错再修(自我纠错)

整个过程不是预设的固定流程,而是根据任务动态调整。这就是Agentic的本质:自主决策+多轮迭代+自我纠错

Agentic RAG的四种模式

模式原理适用场景
路由模式根据问题类型路由到不同检索器多类型查询
推理-行动循环思考→行动→观察,多步检索复杂问题
多文档智能体每个文档一个智能体,协调器统筹跨文档对比
自我纠错检索后自我评估,必要时重新检索高准确性要求

优势:真正的自主决策、适应复杂多变场景、可处理传统RAG搞不定的问题

劣势:成本高(多次LLM调用)、延迟大、可控性降低、调试困难、容易陷入死循环

2.8 专项增强

Long-context RAG(长上下文RAG)

核心思路:利用长上下文LLM(100K+ tokens),改变检索粒度。

传统RAG用小chunk(512 tokens),导致检索次数多、上下文碎片化。Long-context RAG反其道而行:用大chunk(4K-8K tokens),减少检索次数,保持文档结构完整。

维度传统RAG长上下文RAG
切块大小512 tokens4K-8K tokens
检索数量多个碎片少量完整段落
上下文拼接后送LLM保持文档结构

LongRAG论文(2024)的核心发现:把chunk从100词扩大到4K词,在多个数据集上效果显著提升。原因是:小chunk虽然检索精确,但丢失了上下文;大chunk保留了段落完整性,LLM更容易理解。

适用场景:长文档理解(研究论文、法律合同)、需要保持全局结构、章节间有强关联

前提:你得有一个支持长上下文的LLM,而且要承受更高的token成本。

Multi-modal RAG(多模态RAG)

核心思路:处理图文混合文档,保留视觉信息。

传统方案:PDF → OCR → 文本 → 向量化,图表信息丢失

新方案(如ColPali):PDF → 视觉语言模型直接生成页面向量,保留视觉信息

适用场景:文档含大量图表、流程图,技术手册、研究报告,投资材料、设计文档

LightRAG

核心思路:Graph RAG的轻量替代,用更少资源实现图增强。

维度Microsoft GraphRAGLightRAG
Token消耗高(数千/查询)低(百级/查询)
API调用多次1次
增量更新需要重建支持

优势:资源消耗大幅降低、支持增量更新、部署简单

2.9 架构选型:我的判断

先说结论:80%的场景用Advanced RAG就够了

很多人一上来就想上Graph RAG、Agentic RAG,觉得越复杂越厉害。但复杂度是有代价的——成本高、延迟大、调试难。

架构适用场景复杂度成本
Naive RAG原型验证、简单问答
Advanced RAG通用搜索、高精度要求
Modular RAG多类型查询、灵活编排中高
Graph RAG金融/法律/医药、多跳推理
Agentic RAG编程、复杂多步骤
Long-context RAG长文档、全局结构中高
Multi-modal RAG图文混合文档中高
LightRAG图增强但预算有限

我的选型建议

    1. 先问自己:Naive RAG真的不够用吗?很多时候问题出在解析,不在架构
    1. 默认选Advanced RAG(混合检索+重排序),这是性价比最高的方案
    1. Graph RAG听起来很美,但构建和维护成本很高,除非你的场景真的需要多跳推理
    1. Agentic RAG适合复杂任务,但延迟和成本都会飙升,想清楚再上

组合使用建议

实际项目中,往往需要组合多种架构:

组合适用场景
Advanced + Long-context长文档 + 高精度
Modular + Agentic复杂查询 + 灵活编排
Graph + Advanced实体关系 + 传统检索互补
Multi-modal + Advanced图文文档 + 文本检索

2.10 别迷信RAG:什么时候不该用

RAG不是万能药。以下场景要么不适合,要么有更好的选择:

场景为什么RAG不合适更好的选择
需要特定语气/风格/人设RAG检索的是知识,不是风格。你想让AI说话像鲁迅,检索鲁迅的文章没用微调、few-shot prompt
数据量小且更新频繁维护索引的成本比收益大直接塞进上下文窗口
创意生成类任务RAG会让输出趋向于已有内容,限制创造力纯生成,不检索
实时性要求极高(<100ms)检索+重排序有延迟缓存、预计算
答案需要综合上百篇文档Top-k覆盖不全,拼接也超出上下文预先生成摘要/报告,或用Map-Reduce

一个简单的判断标准

问自己两个问题:

    1. 我需要的是知识/事实,还是风格/能力?→ 前者用RAG,后者用微调
    1. 我的数据能放进上下文窗口吗?→ 能且更新频繁,直接塞进去比RAG简单

别为了用RAG而用RAG。


三、主流框架对比与选型

本文聚焦RAG专用框架,通用智能体编排框架(如LangChain)不在讨论范围。

3.1 LlamaIndex

定位:围绕文档和检索的RAG开发框架

核心价值

  • • 抽象出了RAG共性组件(文档加载器、索引、查询引擎),让开发者不用从零搭建
  • • 以数据为中心的架构思路
  • • 多种索引类型(树形、列表、向量、关键词、知识图谱等)
  • • 内置完善的评测模块(忠实度、相关性、正确性等)
  • • 紧跟前沿,社区活跃

优点

    1. RAG技术栈视角完整,不只是「向量库+Top-k」
    1. 评测模块成熟
    1. 云生态绑定紧(GCP/AWS都有官方集成)
    1. 对开发者友好,可自然嵌入现有服务

缺点

    1. 没有开箱即用的RAG平台
    1. 文档功能宽泛,有学习曲线
    1. 文档解析能力是「够用级」,不是「强迫症级」

生产级RAG的核心设计思路

LlamaIndex官方文档总结了几个关键设计原则:

一、分离检索粒度和合成粒度

核心洞见:检索阶段适合细粒度(句子级),合成阶段需要宽上下文(段落级)。

为什么?文档直接按大块向量化会导致相关句子被埋在中间,从而漏检;先检索"句子级"命中,再关联其周边窗口用于合成,既精确又充分。

二、大规模文档的结构化检索

当文档数量上百上千时,单纯"Top-k语义相似度"会漂移。解决方案:

  • • 元数据过滤 + 自动检索:为文档打标签,推理时由LLM自动选择过滤条件
  • • 文档层次(摘要→原始块)+ 递归检索:先以摘要做文档级语义查找,锁定候选文档,再深入块级检索

三、根据任务动态调整检索策略

不同任务需要不同策略:

  • • 事实问答:高相似度精确命中,少而准
  • • 长文摘要:扩大覆盖面,聚合多块
  • • 比较/对照:分别检索多来源并对齐

四、领域化向量优化

通用向量模型不一定理解行业语义。对专业术语密集的场景(规范/招标/财报),需要对向量模型做领域数据上的优化/微调。

3.2 RAGFlow

定位:开源RAG引擎,强调「复杂文档解析 + 可视化RAG/智能体工作流」

核心优势

维度能力
深度文档理解表格、布局、图片、扫描件解析,保持结构
智能切块基于版面的切块,不是无脑按字数切
可视化干预界面中能看到切块结果和引用,方便业务同学介入
GraphRAG内置知识图谱构建作为预处理步骤,界面里可直接开启
智能体工作流拖拽式多步流程、多智能体协作

与LlamaIndex对比

维度LlamaIndexRAGFlow
定位数据/RAG/智能体框架,给工程师用的SDK深度文档理解+RAG引擎+可视化平台
使用方式代码驱动(Python/TS)部署服务+Web控制台+API
文档解析常规加载器/分割器,支持自定义强调深度文档理解
Graph/GraphRAG有支持,但偏代码层实验内置知识图谱构建,界面里可直接开启
评测内置评测器本身偏执行引擎,评测多依赖外部平台

选型建议

  • • 想深度折腾RAG评测、检索策略、代码层定制 → LlamaIndex
  • • 要复杂PDF/表格/扫描件 + 可视化配置 + 给业务方看的界面 → RAGFlow

3.3 我的选型结论

说实话,框架选型没那么重要。

LlamaIndex和RAGFlow各有侧重,但核心能力差不多。真正影响效果的是:你对业务场景的理解、文档解析的质量、评测体系的完善程度。

如果非要给建议:

  • 默认选LlamaIndex,灵活、社区活跃、可逐步扩展,复杂文档解析可接入LlamaParse
  • • 如果你的文档很复杂(PDF/合同/表格),且需要给非技术同事用 → RAGFlow
  • • 如果是大型企业,需要跨系统权限管理 → Glean这类企业级产品

别在框架选型上纠结太久。先跑起来,遇到问题再换也不迟。


四、企业级搜索:Glean的设计逻辑

Glean定位为企业内部的"工作AI助理",核心是跨系统的语义搜索+问答。研究它的价值不在于推荐这个产品,而是理解企业级RAG要额外解决什么问题——这些设计思路同样适用于自建系统。

4.1 企业搜索 vs 个人搜索:本质区别

企业搜索和个人搜索的核心差异不在于"有没有"某个能力,而在于复杂度量级

维度个人搜索企业搜索
用户单用户多用户、多角色、多部门
数据源少量、同质100+异构系统(云盘/聊天工具/知识库/项目管理…)
权限简单或无复杂访问控制、跨系统继承、实时同步
个性化单用户历史偏好多维度:角色×部门×协作网络×项目上下文
时效性通用时间衰减场景化(政策必须最新 vs 文档稳定 vs 历史记录不衰减)
术语通用语言大量内部术语、缩写、项目代号

核心洞察

  • • 个人搜索:单用户 × 少数据源 × 简单个性化
  • • 企业搜索:多用户 × 多数据源 × 多维度个性化 × 权限治理

混合检索(BM25+向量)已是行业标配,不是企业搜索的差异化能力。Glean的核心价值在于处理权限、多维度个性化、场景化时效性、术语理解、数据治理这些企业特有的复杂度。

4.2 统一权限模型

核心问题:企业有100+数据源,每个系统权限模型不同,如何统一?

Glean的解决方案

能力实现方式
跨系统权限继承从各源系统实时同步访问控制列表,构建统一身份图
检索时权限过滤权限信息与文档元数据一起索引,检索时直接过滤
统一权限模型搜索、助手、智能体共用同一套权限

关键实现细节

  • • 不是检索后再查权限(太慢),而是权限预先索引
  • • 通过实时同步机制同步权限变更
  • • 支持权限继承(文件夹权限自动继承到子文件)

4.3 时效性加权

核心问题:旧文档被引用多、内容丰富,向量得分往往更高,但用户要的是最新的。

场景化调整:不是所有查询都需要最新的

  • • 搜「公司政策」→ 时效性权重高
  • • 搜「技术文档」→ 时效性权重中
  • • 搜「历史记录」→ 时效性权重低

这个思路对任何RAG系统都适用:时效性不是一个全局参数,而是要根据查询意图动态调整

4.4 个性化排序

核心问题:同一个问题,销售和工程师需要的结果不同。

Glean的个性化信号

信号作用
部门亲和性优先返回用户所在部门的文档
协作者相关性优先返回常合作同事创建的文档
历史偏好基于用户过去的点击/阅读行为
点击数据全公司的点击行为反哺排序

实际效果

  • • 销售搜「Q3报告」→ 优先返回销售数据
  • • 工程搜「Q3报告」→ 优先返回技术指标

4.5 双层知识图谱

Glean构建两层图谱:企业图谱(组织级)+ 个人图谱(用户级)

企业图谱

维度作用
语义系统理解组织内部术语(Project Titan = 2024旗舰项目)
文档链接文档间的引用/关联关系
人员网络组织内人员协作关系网络
概念理解领域概念的同义词、上下位关系

个人图谱

维度作用
协作网络用户常合作的同事
关注领域用户常访问的文档类型/主题
工作上下文用户当前参与的项目/任务

双层图谱的价值

  • • 企业图谱解决「术语理解」和「实体消歧」
  • • 个人图谱解决「个性化排序」
  • • 两者结合实现:同一个问题,不同人看到与自己最相关的结果

研究Glean不是为了推荐它(大多数团队也用不起),而是想搞清楚:从个人RAG到企业RAG,中间差了什么?

答案是:权限、个性化、时效性、术语理解。

这些问题在个人项目里感知不到,但在企业场景里是刚需。如果你在做ToB的RAG产品,这些是绕不过去的。


五、落地建议

5.1 先建评测体系,再谈优化

这是我最想强调的一点:没有评测体系的RAG优化是在碰运气

很多人的做法是:上线 → 用户反馈不好 → 调参数 → 再上线 → 还是不好 → 继续调……

问题是:你怎么知道调对了?用户说"不好",是检索不准?还是回答不对?还是根本没理解问题?

比跑指标更重要的是:自己看case,做错误分析。

作为AI产品经理,你至少得亲自看过100个case才能建立体感。不是看指标报告,是一个一个看:用户问了什么、检索到了什么、回答了什么、哪里出了问题。

看多了你会发现错误是有规律的:

  • • 某类问题总是检索不到 → 可能是切块策略问题
  • • 检索到了但回答错 → 可能是上下文太长LLM没注意到
  • • 某个文档反复出问题 → 可能是解析有问题

错误分析比优化更重要。知道错在哪,优化方向才清晰。

评测工具方面,LlamaIndex内置了评测模块,包含诸如:忠实度(Faithfulness)、相关性(Relevancy)、正确性(Correctness)、语义相似度(Semantic Similarity)等指标。

开源工具还有Ragas(专注RAG评测)、DeepEval(更全面的LLM评测框架)、Arize Phoenix(观测平台)等。但工具只是辅助,核心还是你对case的理解。

评测这块内容很多,我准备单独写一篇展开

5.2 分阶段路线图

第一阶段:MVP(2-4周)

目标:跑通基础RAG,验证可行性

技术栈:

  • • 向量检索:LlamaIndex VectorStoreIndex
  • • 关键词检索:BM25
  • • 时效性过滤:文件日期
  • • 简单合并排序

交付物:能用的问答原型

第二阶段:优化(4-8周)

目标:提升准确率,加入高级能力

新增:

  • • 实体识别(评分标准、技术要求)
  • • 简单图谱(文档-评分项-案例)
  • • 点击反馈学习
  • • 基于用户历史的个性化

关键动作:建立评测体系,数据驱动迭代

第三阶段:进阶(可选)

目标:达到生产级水平

新增:

  • • 完整知识图谱(项目-标段-评分规则-中标方案)
  • • 多跳推理(类似项目的中标策略)
  • • 自动更新图谱

前提:有足够的数据和工程资源

5.3 技术栈推荐

层级推荐方案备选
检索框架LlamaIndex-
向量库Milvus / Qdrantpgvector
文档解析LlamaParseMinerU
图谱(可选)Neo4j-
评测LlamaIndex内置Ragas

LLM选型不列了。原则很简单:先用最强的模型(GPT/Claude/Gemini)把效果调到位,再考虑换便宜模型降成本。别一开始就用小模型省钱,效果差了你都不知道是模型问题还是RAG问题。

5.4 常见坑

说明避坑方法
一上来就建知识图谱过度设计,投入产出不划算MVP先验证基础RAG
只用向量数据库精度不够,无法精确匹配混合检索(BM25+向量)
自己造轮子浪费时间重复发明用LlamaIndex
不做评测就上线不知道效果好不好先建评测体系
忽视解析质量垃圾进,垃圾出先看解析,再调检索

5.5 几句大实话

    1. 解析是地基——效果不好先查解析,别急着换架构
    1. 没有银弹——不同文档用不同工具,别指望一招鲜吃遍天
    1. 先跑起来再说——从简单方案开始做起,完美主义是RAG项目最大的敌人
    1. 评测比优化重要——没有评测体系,你根本不知道改对了没

写在最后

写完这篇,我最大的感受是:RAG没有银弹

市面上太多文章在推销某个框架、某个架构、某个神奇的技术,好像用了就能解决所有问题。但现实是,RAG的效果取决于一系列琐碎的决策:文档怎么解析、怎么切块、用什么向量模型、检索策略怎么配、重排序要不要加……每个环节都可能出问题。

如果非要总结几个最重要的认知:

    1. 解析是门槛——做不好是0分,做好了是60分及格线
    1. 检索是天花板——从60到90全靠这里,但调优是玄学
    1. 评测是指南针——没有评测体系,优化就是碰运气

还有很多我没想清楚的问题,比如:

  • • 评测体系怎么建才能真正反映业务效果,而不是自嗨?
  • • 多模态RAG在实际场景中的ROI到底怎么样?
  • • Agentic RAG的可控性问题怎么解决?

想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享

👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告:覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

  • 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
  • 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
  • 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
  • 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT:听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

在这里插入图片描述

  • 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
  • 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
  • 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
  • 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析

2. 102 道 AI 大模型真题:直击大模型核心考点

针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:


三、路线必明: AI 大模型学习路线图,1 张图理清核心内容

刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

在这里插入图片描述

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

img

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

img

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

img

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

img

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

img

L5阶段:专题集丨特训篇 【录播课】

img
四、资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值