前言
自主式检索增强生成(Agentic RAG)的提出代表了RAG技术的重要演进,它通过赋予大语言模型动态调用检索工具、自主规划和调整推理流程的能力,显著提升了处理复杂、多步骤任务的性能。与传统RAG依赖静态、单次检索不同,Agentic RAG将检索深度集成到推理过程中,实现“边思考边搜索”,标志着RAG从“被动增强”向“自主智能体”范式的转变。然而,现有Agentic RAG面临探索效率低下、奖励信号稀疏以及全局奖励反馈无法准确反映局部决策质量等问题。
为应对这些挑战,**天津大学NLP实验室联合小红书提出了一个用于Agentic RAG过程监督的 DecEx-RAG 框架。**该框架将RAG建模为一个马尔可夫决策过程(MDP),实现了对推理路径的显式建模与优化,同时,引入了一种高效的剪枝策略,以提升数据扩展的质量与训练效率。实验表明,DecEx‑RAG在六个数据集上平均绝对性能提升6.2%,显著优于现有基线。此外,剪枝策略显著提高了数据构建效率,为进程级RAG监督训练提供了一种高效的解决方案。

1、方法

图1:DecEx‑RAG框架示意图,展示了搜索树扩展和剪枝的过程。
*研究团队提出的DecEx-RAG框架如图1所示。***该框架将检索增强生成(RAG)建模为一个包含决策与执行两个独立阶段的马尔可夫决策过程,通过为每个问题扩展搜索树来生成多步过程监督数据。**在扩展过程中,通过多次rollout获取中间过程奖励,同时剪枝冗余分支以提高效率。扩展完成后,使用最优推理链(从根节点到叶节点)进行监督微调(SFT), 路径上所有分支节点则作为直接偏好优化(DPO)的偏好数据。
(1)将RAG建模为马尔可夫决策过程
将该过程表示为元组(S,A,P,R),其中S表示状态集,A 表示动作集,P描述状态转换动态,R指定奖励函数。
状态集:在每个时间步t,状态st∈S表示对问题的部分解决方案。
动作集:在状态st中,模型选择一个动作at= (σt,δt) ∈ A,它包含两个决策:终止决策σt:确定是否继续迭代。如果继续,将生成下一个子问题qt+1。如果终止,将输出最终答案o。检索决策δt:对于子问题qt+1, δt决定如何回答它。如果选择使用模型自身的知识来回答,则生成答案wt+1。如果调用检索器,则生成子查询et+1 并获取相关文档dt+1。
状态转换动态:当在状态st中执行动作at=(σt,δt)时,状态更新为st+1。
奖励函数:奖励函数R(st,at) 指定了在状态st时采取行动at后获得的预期奖励。该框架对状态‑动作对(st,at)进行多次rollout,并使用多个rollout的正确性分数作为奖励:

其中rollouti 是(st,at)的第i次推演完成,v (rollouti) ∈ [0,1]表示最终答案的正确性分数。
(2)搜索树扩展与剪枝
DecEx-RAG 将问题求解建模为搜索树的构建过程。首先,模型通过非零温度采样多次生成终止决策,若超过50%的采样倾向于终止,则结束求解;否则生成多个候选子问题,对每个去重后的子问题进行多次 rollout 模拟,以平均得分作为中间奖励,并选择奖励最高的分支进行扩展。
随后进行检索决策:模型先基于内部知识生成候选答案并计算其 rollout 奖励,若最高奖励超过预设阈值,则跳过检索直接采纳该答案;否则生成多个子查询,同样通过 rollout 评分并选择最优者进行扩展。
尽管每次决策都需要通过多次 rollout 来获取奖励,但这些生成的轨迹数据不仅可用于训练偏好模型,还为高效的剪枝策略提供了依据——通过保留每层最优分支,显著提升了搜索效率与扩展能力。
2、评估
基于提示的方法具有局限性。仅依赖大模型内部知识(如直接推理或思维链)的方法具有知识局限性;而于RAG的方法(如Iter-RetGen、IR-COT、FLARE)通过引入外部知识展示了较优的表现,验证了知识检索的必要性。尽管Search-o1在提示工程方法中表现最佳,但其复杂流程对模型能力要求高,优势难以在小模型上复现。
在数据效率方面,过程监督强化学习显著优于结果监督方法。DecEx-RAG在仅3K样本下即全面超越基于结果监督的Search-R1和IKEA,平均性能提升6%~8%,展现出更高的数据效率。相比其他过程监督方法,DecEx-RAG也更具优势:DeepRAG仅优化决策,而DecEx-RAG兼顾决策与执行;ReasonRAG存在检索不足、过度依赖内部知识的问题。实验表明,DecEx-RAG不仅在本领域任务中领先,还具备出色的跨领域泛化能力。
表1 DecEx-RAG和其他基线在六个数据集上的整体实验结果

一系列消融实验说明了DecEx‑RAG框架的有效性,图2(a)展示了SFT阶段不同数据选择策略的比较结果。实验表明,使用最多检索成本(Most)策略训练的模型表现最佳,检索动作更频繁。通过检查模型的输出,发现模型倾向于通过多次检索验证答案准确性,展现出更强的深度思考能力。相比之下,使用最少检索成本(Least)策略训练的模型过度依赖自身知识,导致错误率增加。
图2(b)显示了在DPO阶段,不同偏好数据组成对实验结果的影响。实验表明,省略任何类型的偏好数据都会导致性能下降,突出了同时优化决策和执行的必要性。进一步分析表明,使用决策数据训练的模型比使用执行数据训练的模型表现略差,但需要更少的检索。这证实了执行数据主要优化内容质量,而决策数据优化检索效率。
图2©展示了不同训练方法之间的性能比较。实验表明,仅SFT训练使模型能够学习基本的检索模式,但检索频率不足限制了性能上限。仅DPO训练的模型由于缺乏有效的模仿学习,迭代质量差且无效检索增加。相比之下,两阶段训练(SFT+DPO)在性能和效率之间取得了平衡,通过SFT训练建立推理基础,通过DPO训练优化决策过程,最终实现了最佳整体性能。

图 2 :SFT、DPO和不同训练方法的消融结果
为验证搜索树剪枝策略的有效性,研究团队将其与无剪枝搜索和全节点搜索进行对比。无剪枝搜索保留每层最优分支,全节点搜索保留所有分支但省略 rollout 模拟。实验结果如表2所示。
理论分析表明,剪枝搜索的扩展次数随深度l线性增长,显著优于无剪枝搜索的2l和全节点搜索的 (2k)l 指数级增长(k为每决策分支数)。
实验在500个问题上进行,结果显示:剪枝搜索的平均扩展速度比无剪枝搜索快近6倍;全节点搜索因每问题耗时超1小时,效率过低而被排除后续比较。进一步地,研究团队使用等量数据训练 Qwen2.5-7B-Instruct。结果表明,无论是 SFT 还是 SFT+DPO,剪枝与未剪枝数据训练出的模型性能相当。
综上,剪枝策略在保持数据质量的同时,将扩展效率提升近6倍,验证了其高效性与实用性。
表2 三种扩展方法的比较

案例分析如表3所示,对于给定的问题,Search‑R1依靠自己的知识和一次检索,在推理过程中准确澄清了Ed Wood和Scott Derrickson的国籍信息。然而,它的最终输出结果是“否”。这种现象清楚地表明Search‑R1在推理过程和结论之间存在严重的不一致,这是一个典型的奖励博弈案例。相比之下,DecEx‑RAG不仅生成了一个逻辑严谨且正确的推理过程,而且在推理过程和最终答案之间实现了高度一致性。
表3:DecEx‑RAG和Search‑R1的案例研究


最后
为什么要学AI大模型
当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!
DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。

最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下


这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
1074

被折叠的 条评论
为什么被折叠?



