AI“内卷”太严重?谷歌级框架COCOM出手,让AI团队学会高效沟通,告别“摸鱼”!

速看:本文引入了一种多智能体学习框架,在我们的框架中,智能体基于其局部观测生成关于群体的共识,然后使用共识和局部观测来生成消息。由于共识提供了一定程度的全局指导,在不必要时可以禁用通信,从而减少开销。同时,在必要时通信可以为共识提供补充信息。

导言

在人工智能迅猛发展的今天,多智能体强化学习(MARL)已成为推动智能系统协作的核心技术。从视频游戏到能源网络,再到机器人控制,MARL的应用无处不在。然而,在这些场景中,智能体往往面临局部观察的限制,导致对队友状态的不确定性,进而影响合作效率。传统方法要么依赖显式通信(如交换观察),带来高通信开销;要么采用隐式共识(如基于局部推断共享理解),但在观察差异大时性能下降。如何平衡效率与实用性,成为MARL领域的关键挑战。

最近发表于AAAI-25会议的论文《Efficient Communi-cation in Multi-Agent Reinforcement Learning with Imp-licit Consensus Generation》(多智能体强化学习中的高效通信:隐式共识生成)提出了一种创新框架——COCOM(Con-sensus-based Communication)。作者们巧妙地将显式通信与隐式共识相结合。框架的核心在于:每个智能体先基于局部观察生成共识(一种共享的群体理解),然后利用共识和观察产生消息。只有在必要时(如共识不足以指导决策),才启用通信。这种设计通过全局共识指导局部推断,确保共识有意义且一致;同时,用互信息优化消息,避免冗余,并引入门控机制过滤不必要通信,实现低开销协作。

实验结果令人印象深刻。在Hallway任务、StarCraft多代理挑战(SMAC)和Google Research Football(GRF)环境中,COCOM不仅胜率高于基线算法(如QMIX、COLA),通信开销也显著降低。例如,在复杂地图中,它能以更少的交互实现高效协调,证明了框架的通用性和实用性。

领域 - 框架 - 技术 - 问题 - 实验

一、核心研究领域与范式

  1. 多智能体强化学习(MARL,Multi-Agent Reinforcement Learning)
  2. 集中训练 - 分布式执行(CTDE,Centralized Training and Decentralized Execution)
  3. 价值分解(Value Decomposition,如 QMIX、VDN 适配框架)

二、核心创新框架与方法

  1. COCOM 框架(Consensus-based Communication,基于共识的通信算法框架)
  2. 显式通信(Explicit Communication,如消息广播、观测交换)
  3. 隐式共识(Implicit Consensus,基于局部观测的群体共享理解)

三、关键技术模块与优化手段

  1. 共识生成机制(Consensus Generation)
  • 全局共识生成器(Global Consensus Generator,基于 VAE 结构)
  • 局部共识生成器(Local Consensus Generator,通过 KL 散度与全局共识对齐)
  1. 消息优化技术
  • 互信息优化(Mutual Information Optimization,减少消息 - 共识冗余、增强决策指导)
  • 门控机制(Gating Mechanism,动态剪枝冗余通信,判断消息发送必要性)
  1. 消息处理模块
  • 交叉注意力机制(Cross-Attention Mechanism,灵活处理变量数队友消息)
  1. 基础模型组件
  • 变分自编码器(VAE,Variational Autoencoder,用于全局共识生成)
  • 多层感知机(MLP,Multi-Layer Perceptron,实现共识 / 消息的分布建模)
  • 门控循环单元(GRU,Gated Recurrent Unit,生成智能体局部历史表示)

四、核心解决问题与优化目标

  1. 通信开销(Communication Overhead,论文核心优化目标,实现显著降低)
  2. 局部观测限制(Partial Observability,多智能体协作的核心痛点,通过共识缓解)
  3. 协作性能(Cooperative Performance,以胜率、任务完成率为核心评估指标)
  4. 策略收敛性(Policy Convergence,避免冗余通信导致的学习不稳定)

五、实验基准环境与评估指标

  1. 基准测试环境
  • Hallway 任务(走廊协作任务,验证局部观测下的协同)
  • SMAC(StarCraft Multi-Agent Challenge,星际争霸微操环境,多难度场景验证)
  • GRF(Google Research Football,谷歌研究足球环境,验证框架通用性)
  1. 核心评估指标
  • 胜率(Win Rate,合作任务完成率,核心性能指标)
  • 通信开销(平均通信对 /episode,效率评估指标)

PART.01

研究动机

近年来,多智能体强化学习(MARL)受到了越来越多的研究关注,其应用涵盖了广泛的场景,如视频游戏、能源网络和机器人控制。许多MARL算法采用集中训练和分散执行(CTDE)范式,因为它在处理多智能体环境中的非平稳性方面具有可扩展性和有效性。尽管CTDE取得了进展,但智能体在执行过程中只能访问局部观测,这导致了关于其队友的状态和信息存在很大的不确定性。这种不确定性可能导致严重的不协调和次优策略。

为了解决上述问题,一些方法允许智能体之间进行显式通信,例如交换智能体的局部观测或嵌入 ,并使用接收到的通信消息来增强局部观测,以进行策略选择和学习。这些方法可以有效地减少智能体之间的不确定性并提高协作性能。然而,高通信成本限制了这些算法在具有严格带宽和实时要求的实际应用中的实用性和有效性。此外,过多的通信可能会引入不必要甚至有害的信息,这可能会损害学习过程的收敛性。因此,如何降低通信成本并发送高效的消息成为一个有价值的问题。

与显式通信不同,隐式共识合作涉及智能体通过各自的局部观测推断出一致的共识。通过利用共识,智能体可以对环境和群体形成共同的理解,从而在不产生额外通信成本的情况下提高协作性能。然而,隐式共识的缺点是,由于局部观测的局限性,当智能体之间的观测存在显著差异时,形成复杂的共识可能具有挑战性。此外,过度依赖共识可能导致智能体策略缺乏多样性。

上述两种方法都有各自的优点,但大多数现有工作仅分别考虑这两种方法,而忽略了将它们结合起来可能带来的好处。本文提出了一种基于共识的通信算法框架,称为COCOM。在COCOM中,每个智能体以分散的方式推断出一个共识,随后利用其共识和局部观测来生成消息。整个过程可分为两个主要部分:共识生成和消息生成。在共识生成部分,我们设计了一种针对CTDE范式(集中训练 - 分布式执行,MARL 主流范式)量身定制的共识学习机制。在执行过程中,共识模块基于个体观测生成局部共识。在训练过程中,智能体利用全局信息生成全局共识。这个全局共识用于指导局部共识,确保智能体之间的共识是有意义且一致的。在消息生成部分,消息模块基于局部共识和观测生成消息,然后将其广播给其他队友。鉴于所有队友共享相同的共识,消息应传达除共识之外的额外信息。我们使用互信息来鼓励智能体发送超出共识的消息,并采用门控机制来确定是否需要发送这些消息。这两个模块可以相互促进:消息模块补充共识中缺失的信息,而共识模块在通信不可行时指导群体。

PART.02

整体框架

如图所示,本文提出的COCOM的整体框架,主要包括了全局共识生成器、局部共识生成器、消息生成器、门控网络和整体框架。

Figure 1:COCOM 算法整体框架

(a)全局共识生成器 Global consensus generator

该部分只用于训练,采用VAE结构(变分自编码器,用于生成有意义的全局共识),通过输入全局状态和所有智能体的行动,将这些输入进多层感知机(MLP)算出均值和方差,通过分布采样得到全局共识,再将全局共识输入进另一个多层感知机,重建原来的全局状态和联合行动,确保这个全局共识是否生成正确。在中间,通过KL散度,和标准正态分布进行对比,再次确保这个共识是合法的。

(b)局部共识生成器 Local consensus generator

输入每个智能体的局部历史,这个过程类似(1),得到局部共识后,通过KL散度对齐局部和全局,确保共识一致。再将局部共识输入进门控网络,进入全连接层。

(c)消息生成器 Message generator

输入局部历史和局部共识进入多层感知机,算出均值和方差,通过分布采样得到消息。将消息输入进门控网络,进入全连接层。

(d)整体框架 Overall architecture

这部分是单个智能体的运行过程,通过输入当前观察和上一步行动,进入GRU生成局部历史。局部共识(2)来。生成消息从(3)来,进门控。接收队友发的消息,通过交叉注意力机制融合(Cross-Attention)。然后将融合后的消息+局部历史+局部共识连起来,进多层感知机得到价值函数。最后将所有智能体的价值函数和全局状态输入进混合网络,得到全局行动价值函数。

(e)门控网络 Gating net

输入局部共识和消息,进入全连接层,通过FC+softmax算出开门和关门概率,如果开门概率大于关门概率,并且将该消息和消息生成器的消息通过互信息机制,决定是否发送消息。

PART.03

实验结果

    论文主要在三个基准环境中进行:Hallway任务(走廊协作任务)、SMAC(StarCraft多代理挑战)和GRF(Google Research Football足球模拟),使用5个随机种子,评估胜率(合作成功率)和通信开销(消息广播量)。实验回答三个问题:(1) COCOM是否能减开销保持性能?(2) 学到何种通信模式?(3) 是否通用迁移?

 与基线算法(如QMIX、VDN无通信,COLA隐式共识,Full-Comm/TarMAC全通信,NDQ/MAIC/TMC省通信方法)对比,COCOM在所有环境中胜率最高,同时通信成本最低。

Figure 2:走廊任务(Hallway 任务)的平均测试胜率–时间步

Figure 3:Hallway 任务的案例研究与可视化

Hallway任务:3个智能体协调开门不撞。COCOM胜率接近100%,通信率最低(早期零通信,后期关键通信),证明高效协作。在Hallway中,早期时间步不确定性高,通信多(帮助形成共识);后期共识稳定,通信减少或关闭(门控机制作用)。这证明COCOM学到适应性模式:只在必要时补充信息,避免冗余。

Figure 4:星际争霸多智能体挑战赛(SMAC)环境下的性能对比(测试胜率(%)–“时间步(百万步))

图例:SMAC 标准地图标识,分别对应 “2 艘小型战机 + 3 艘大型战机”、“3 艘小型战机 + 5 艘大型战机”、“1 艘指挥舰 + 3 艘小型战机 + 5 艘大型战机”、“10 艘小型战机对战 11 艘小型战机”、“2 艘指挥舰对战 64 艘无人机”、“多类型单位混合对战(超难地图)”

Figure 2:通信开销对比(图例:环境地图名)

   SMAC:在地图如2s3z、3s5z(混合单位)中测试。COCOM在简单地图快速收敛,在复杂地图性能优越,胜率高于基线20-30%,通信开销减50%以上。

Figure 5:谷歌研究足球环境(GRF)实验结果(图例:组合/基线算法)

  GRF:3 vs 1守门员足球场景。COCOM得分高,通信少,胜率稳定,偏差小。将COCOM整合到QMIX、VDN基线中,在GRF测试。结果:基线胜率提升10-20%,通信开销显著降低,证明框架通用,能改进现有算法。

PART.04

结论

本文介绍了COCOM,一种新颖且高效的通信方法,它将显式通信与隐式共识学习相结合。在COCOM 中,智能体根据其局部观察推断出共享共识,这可以指导决策并减少由通信中断引起的不稳定性。 此外,共识有助于生成更简洁的消息。COCOM算法在各种场景下表现良好,显著降低了通信成本。 COCOM可以与不同的值分解变体集成,以提高现有算法的性能。目前,COCOM将消息广播给所有队友。未来的工作将探索纳入定制消息生成,以扩大其适用性。随着多智能体研究社区越来越强调算法的实用性,COCOM的效率和低通信成本将对未来研究非常有利。

PART.05

思维导图

PART.06

学术延伸

Daily Thinking:COLA(隐式共识基线算法)、QMIX(价值分解经典算法)的核心逻辑对比如何?

Related Recommended:

[

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值