前言
一句话总结:本文揭示了多智能体大语言模型推理中的"惰性智能体"问题——即单个智能体主导协作的现象,并提出Dr.MAMR框架,该框架通过因果影响力度量与可验证奖励机制促进更均衡有效的决策协商。
多智能体大语言模型协作的承诺与陷阱
人工智能的前沿领域正日益探索多智能体系统,即由专业化的大语言模型(LLM)团队协作解决复杂推理任务。受人类团队合作的启发,诸如 ReMA(通过元思维与行动进行推理)等框架为不同智能体分配了 distinct 的角色。在此设置中,一个元思维智能体充当规划者,将复杂问题分解为更小的步骤并提供高层指导。随后,一个推理智能体执行这些步骤,进行详细的计算和逻辑推演。这种分工有望增强 LLM 的推理能力,使其超越单一模型所能达到的水平,并在高等数学、编程和规划等高要求领域展现出潜力。

然而,尽管前景广阔,我们的研究揭示了一个关键且惊人常见的故障模式: "惰性智能体"问题 。我们观察到,在使用标准强化学习技术训练的多智能体系统中,一个智能体常常变得被动,对协作贡献甚微。如图 1(a)中的案例研究所示,推理智能体可能产生空白或琐碎的响应,实际上将整个推理负担转嫁给了元思维智能体。这种动态破坏了协作的根本目的,导致复杂的多智能体系统退化为无效的单智能体系统。这一现象尤其令人费解,因为智能体是顺序行动的,理论上一个智能体的低质量输出会阻碍整体进程,并在训练过程中受到抑制。但相反,我们发现这种惰性行为不仅存在,而且被系统地强化了。
诊断 AI 团队中的"惰性智能体"问题
为了理解惰性智能体现象,我们首先需要对其进行量化。随后,我们开发了一个理论框架来解释其起源。
实证诊断:衡量影响力
为了实证衡量智能体的贡献,我们采用了一种基于注意力抑制的因果影响力度量方法。一个智能体的行动(例如,其对话轮次)对后续轮次的影响力,定义为模型在关注与不关注该行动 token 的情况下所做预测之间的 KL 散度。较小的散度意味着该行动对推理过程影响甚微,表明存在惰性行为。

我们总结在图 2中的实验揭示了一个清晰的模式。当像 ReMA 这样的多智能体系统被训练时,推理智能体的因果影响力(起始于合理水平)会随时间推移稳步减弱。相比之下,元思维智能体的影响力则增长,表明其已接管了整个任务。这种不平衡并非无害;它对应着整体任务性能的下降。虽然明确提示推理智能体更加主动可以略微缩小这一差距,但这未能解决根本问题,表明问题深植于训练动态之中。
理论诊断:学习目标中的偏差
我们发现,根本原因在于多轮强化学习框架(如多轮 GRPO)中使用的优化目标。该目标函数包含一个归一化项 ,其中 是对话轨迹中的总轮次数。此项旨在防止模型偏向不必要的长对话。然而,它引入了一个 unintended 且强大的结构性偏差。
我们在定理 1中形式化的理论分析表明,当面临两条都能获得相同最终奖励的替代路径时,模型的梯度更新将偏向轮次更少的路径。一个惰性行动,例如提供空白响应,通常会缩短对话。因此,训练过程通过奖励更短的轨迹,无意中强化了惰性行为,即使更长、更审慎的对话可能同样正确或更为正确。 这种优化偏差使系统偏离真正的协作,走向阻力最小的路径,导致一个智能体承担所有工作。
引入 Dr. MAMR:实现真正审慎推理的框架
为了解决这些根本问题,我们引入了 Dr. MAMR:一个真正实现多智能体元推理的框架。Dr. MAMR 的设计不仅是为了修补惰性智能体的表象,更是为了创建一个能促进真正、稳健且平衡的协作系统。它建立在一系列相互关联的解决方案之上,直接针对我们所诊断出的问题。
第一个也是最直接的干预措施是纠正有缺陷的学习目标。基于我们的理论分析,我们从多轮 GRPO 目标函数(原定义于公式 2)中移除了有问题的轮次级归一化因子 。通过这样做,我们消除了惩罚较长对话轨迹的结构性偏差。这一更改在我们新的训练目标公式 9中形式化,确保模型不再有动机过早缩短推理过程,为智能体之间更有意义和审慎的互动奠定了基础。然而,仅仅消除这种偏差不足以主动鼓励协作。
衡量关键要素:一种衡量智能体影响力的因果方法
为了积极促进有意义的贡献,我们需要准确衡量并奖励每个智能体的影响力。用于诊断的简单基于注意力的度量方法对于在线训练来说噪声过大,因为它基于单条轨迹,且容易受到偶然措辞的影响。
为了克服这一点,Dr. MAMR 采用了一种新颖的受沙普利值启发的因果影响力方法,以产生稳定且稳健的奖励信号。其核心思想是衡量一个想法的贡献,而非特定的话语。
- 分组相似步骤: 对于智能体采取的每个步骤,我们将其视为锚点,并形成一个组 ,该组包含训练批次中不同 rollout 里语义相似的步骤。这是通过嵌入步骤并对那些具有高余弦相似度的步骤进行分组来实现的。
- 平均边际贡献: 然后,我们使用前面描述的注意力抑制方法(
公式 (4)),计算组中每个步骤的单步因果影响力 。 - 计算最终影响力: 锚点步骤的最终因果影响力 是整个语义组的平均影响力,如
公式 (5)所示:
这种方法通过平均掉噪声并关注底层的语义内容,提供了对步骤真实贡献的更可靠估计。然后,这个稳健的因果影响力信号被整合到奖励函数中,直接激励每个智能体做出有意义的贡献。
学习恢复:用于更好推理的可验证奖励
随着协作的加强和对话的延长,一个新的挑战出现了:推理智能体"在对话中迷失"的风险。一个智能体可能早期就走上错误的路径,并且难以恢复,每一个额外的轮次都只会加剧初始错误。
为了缓解这个问题,Dr. MAMR 赋予推理智能体审慎思考并从错误中恢复的能力。我们引入了一个特殊的控制 token <restart> ,智能体可以选择发出它。如图 1(c)所示,发出 <restart> token 会指示智能体丢弃其先前的推理输出,重新整合来自元思维智能体的指令,并重新开始其推理过程。
为了确保该机制被有效使用,我们为 <restart> 动作设计了一种新颖的可验证奖励。该奖励不是基于主观度量,而是基于其对最终答案概率的可验证影响。如果重启增加了模型对正确答案的信心(或降低了对错误答案的信心),则奖励为正;否则为负。这在公式 (7)中正式定义。这提供了一个清晰可靠的信号,以教导智能体何时重新开始是有效的。
最后,总步级优势度 被计算为标准基于结果的优势度、我们受沙普利值启发的因果影响力 和可验证重启奖励 的加权组合:
这个复合奖励函数(公式 (8))指导着整个 Dr. MAMR 框架,鼓励智能体进行协作、发挥影响力并自我修正。
从惰性智能体到主动协作者:实验结果
我们进行了广泛的实验,在 DeepScaleR 数据集上训练我们的模型,并在七个具有挑战性的数学推理基准上对其进行了评估,包括 MATH500、GSM8K 和 AIME。

表 1中呈现的结果是显著的。首先,标准的 ReMA 框架 consistently 表现不如一个强大的单智能体 GRPO 基线,这实证地证实了惰性智能体问题严重阻碍了多智能体的性能。与之形成鲜明对比的是,我们的 Dr. MAMR 框架在所有模型大小和基准测试中,都 consistently 且显著地优于所有基线。 这表明,通过解决惰性智能体问题并促进真正的审慎推理,多智能体系统最终能够释放其全部潜力,并超越单智能体的能力。

对图 4中训练动态的观察提供了进一步的见解。
- 平衡的协作: 在 Dr. MAMR 下,元思维和推理智能体的因果影响力在整个训练过程中稳步增长,表明了一种平衡且富有成效的伙伴关系。这与 ReMA 形成了鲜明对比,在 ReMA 中推理智能体的影响力骤降至零(
图 4(a))。 - 训练稳定性: Dr. MAMR 表现出远高于 ReMA 的训练稳定性。当 ReMA 的奖励信号迅速崩溃时,Dr. MAMR 保持了稳定且改善的奖励曲线,展示了稳健有效的学习(
图 4(b))。

消融研究(如表 2所示)证实了每个组件的重要性。移除归一化去偏、因果影响力奖励或重启行为中的任何一个都会导致性能明显下降。这凸显了这些组件协同工作,以阻止走捷径、促进平衡贡献并实现从错误中恢复。
最终,我们的工作指出了当前多智能体 LLM 系统中的一个关键缺陷,并提供了一个全面的、有理论依据且经过实证验证的解决方案。通过将惰性智能体转变为主动协作者,Dr. MAMR 为复杂推理释放了多智能体审慎推理的真正力量。
最后
为什么要学AI大模型
当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!
DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。

最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下


这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
1972

被折叠的 条评论
为什么被折叠?



