Stanford 团队展现 RWKV 多智能体优势,UVa 团队突破 RWKV 端侧性能

近日 RWKV 生态新增来自海外名校的两项工作:Stanford(斯坦福大学)团队的 RWKV 多智能体研究,和 UVa(弗吉尼亚大学) 团队的 RWKV 端侧优化研究。

RWKV 多智能体强化学习

四名斯坦福大学研究人员共同发布了《Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning》论文,研究使用多智能体强化学习(multi-agent reinforcement learning)训练 RWKV 模型,使其能通过自然语言交流完成 《Among Us》游戏的推理过程并赢下游戏。

论文已被 AAMAS 2025 主会(口头报告)接收,论文作者在 RWKV Discord 频道分享了这一消息,并分享了“为什么使用 RWKV-4-World 模型”。

  • 为何选择 RWKV 而非 Transformer? 因为 RWKV 的显存占用恒定、理论上支持无限上下文长度。Among Us 游戏单局轨迹可达数万 token,Transformer 模型显存占用过高,而 RWKV 的循环结构通过 T-BPTT 实现无限上下文训练,单 GPU 即可完成训练(论文的实验基于一张 48G 显存的 A40 显卡)
  • 为何使用 RWKV-4,而非性能更好的 RWKV-5/6/7 模型? 研究在 2023 年夏季启动,当时 RWKV-4 是唯一可用版本。团队通过修改 RWKV-4 的 CUDA 内核优化计算效率,没有时间适配 RWKV 新架构。未来计划适配 RWKV-7,进一步提升模型性能。

论文作者在 RWKV Discord 频道分享

接下来我们一起看看该工作的创新点,以及 RWKV 模型在论文中表现出来的强大性能:

游戏规则

《Among Us》是类似于狼人杀/鸭鹅杀的社交推理游戏。

游戏规则:在一辆宇宙飞船上有船员(Crewmates)和内鬼(Impostors)两种角色。内鬼的目标是暗中破坏飞船设施、杀死船员,并在讨论时伪装成普通船员以避免被发现,船员的目标则是通过讨论进行逻辑推理,然后投票淘汰内鬼

Among Us 示例

下图是论文中智能体在《Among Us》游戏的循环示意图,游戏开始时同时向所有智能体发送观察结果,然后在每个时间步从一组有效的行动中收集标记化的行动历史。

游戏的循环过程

无需人工数据,纯 Self-Play

这项工作创新的地方在于完全不依赖人工标注数据,而是通过纯自我对抗学习(Self-Play) 如环境反馈(投票结果、任务进度)和智能体(Agent)间交互来训练 AI 的语言交流能力。AI 智能体通过多轮博弈,逐步学习如何在讨论中提取关键信息,并形成自己的投票策略。

完整的训练框架引入了 RL + 听说双重训练机制。先通过强化学习(RL),使得 AI 在没有人工数据示例的情况下学会如何行动。

以下是用于优化 AI 长期游戏胜率的强化学习损失函数,同时使用 KL 约束 ( λ KL \lambda_{\text{KL}} λKL) 限制 AI 不能偏离自然语言分布。

L RL ( π ) = − E ⁡ τ i ∼ Π ∑ t [ γ t r t i + λ NL log ⁡ ( π ( a t i ∣ τ t i ) π RWKV ( a t i ∣ τ t i ) ) ] L_{\text{RL}}(\pi) = -\underset{\tau^i\sim\Pi}{\operatorname*{\mathbb{E}}} \sum_t \left[ \gamma^t r_t^i + \lambda_{\text{NL}} \log \left( \frac{\pi (a_t^i | \tau_t^i)}{\pi_{\text{RWKV}} (a_t^i | \tau_t^i)} \right) \right] LRL(π)=τiΠEt[γtrti+λNLlog(πRWKV(atiτti)π(atiτti))]

此外,研究团队引入了一种新的听/说双重奖励机制

  • 听力奖励(Listening Reward):听力的损失函数: L L ( π , τ t i ) = − log ⁡ π ( q ∣ τ t i ) L_{\text{L}}(\pi, \tau_t^i) = - \log \pi (q | \tau_t^i) LL(π,τti)=logπ(qτti) ,用于训练 AI 通过讨论预测环境信息,从而预测谁是内鬼。

融合听力奖励后,强化学习的损失函数如下:

L RL+L ( π ) = L RL ( π ) + E ⁡ τ i ∼ Π ∑ t λ L L L ( π , τ t i ) L_{\text{RL+L}}(\pi) = L_{\text{RL}}(\pi) + \underset{\tau^i\sim\Pi}{\operatorname*{\mathbb{E}}} \sum_t \lambda_L L_{\text{L}}(\pi, \tau_t^i) LRL+L(π)=LRL(π)+τiΠEtλLLL(π,τti)

  • 表达奖励(Speaking Reward):奖励 AI 生成能影响队友决策的消息,好的发言会获得更高的奖励

r t s = B t − B t ′ r_t^s = B_t - B_{t'} rts=BtBt

B t = ∑ k ∈ C t π k ( q ∣ τ t k ) B_t = \sum_{k \in C_t} \pi^k (q | \tau_t^k) Bt=kCtπk(qτtk)

融合了 RL + 听说双重奖励后,用于训练智能体的强化学习损失函数如下:

L RL+L+S ( π ) = L RL+L ( π ) − E ⁡ τ i ∼ Π ∑ t [ λ S γ t r t s ] L_{\text{RL+L+S}}(\pi) = L_{\text{RL+L}}(\pi) - \underset{\tau^i\sim\Pi}{\operatorname*{\mathbb{E}}} \sum_t [\lambda_S \gamma^t r_t^s] LRL+L+S(π)=LRL+L(π)τiΠEt[λSγtrts]

RL 算法非常善于 Hack 规则的漏洞。如果不加干预,智能体可能会抓住 Among Us 游戏规则的漏洞来“作弊”并进入失效模式(Failure Modes),比如船员们使用非自然语言来“对暗号”(非自然语言交流),或者在讨论阶段集体沉默等内鬼说话(作弊合作)等。

失效模式与解决方案

为了避免模型偏离自然语言的轨道或偏离任务目标,作者团队采取了一些巧妙的解决方案:

  • KL 约束:为了避免模型在讨论过程中“跑偏”,团队在训练中加入了 KL 约束(强化学习损失函数中的 λ KL \lambda_{\text{KL}} λKL),强制模型始终保持使用自然语言进行交流
  • 冻结部分智能体:为了防止模型在训练过程中学会不自然的策略(比如大家都不发言,只等内鬼发言),研究团队选择冻结部分智能体,让它不参与策略调整,从而避免了“集体摆烂”的现象
  • 世界建模损失(World Modeling Loss):为了确保模型在每次讨论时都能记住重要的上下文信息,论文引入了世界建模损失:

L WM ( π ) = − E ⁡ τ i ∼ Π ∑ t λ WM log ⁡ π ( o t + 1 i ∣ τ t i , a t i ) L_{\text{WM}}(\pi) = - \underset{\tau^i\sim\Pi}{\operatorname*{\mathbb{E}}} \sum_t \lambda_{\text{WM}} \log \pi (o_{t+1}^i | \tau_t^i, a_t^i) LWM(π)=τiΠEtλWMlogπ(ot+1iτti,ati)

世界建模损失用于帮助智能体学习更长期、更合理的策略,避免出现像等待策略(Waiting Strategy,智能体一直待在起始房间不动,然后投票淘汰移动过的玩家)等退化现象。这些策略虽然在短期内有效,但严重破坏了游戏的真实性和挑战性。

最终,完整的损失函数结合了强化学习(RL)、听力(Listening)、表达(Speaking)、世界建模(WM)

L total ( π ) = L RL+L+S ( π ) + L WM ( π ) L_{\text{total}}(\pi) = L_{\text{RL+L+S}}(\pi) + L_{\text{WM}}(\pi) Ltotal(π)=LRL+L+S(π)+LWM(π)

通过新颖的“听说奖励” 结合 KL 约束和世界建模损失等优化,斯坦福团队的研究突破了 RL 传统上的局限,训练出来的 RWKV R L + L + S \text {RWKV}_{RL + L + S} RWKVRL+L+S 模型在社交推理任务中展现出了更接近人类的行为模式,为多智能体协作和复杂场景下的语言模型训练提供了新范式。

RWKV 模型:胜率碾压 + 类人行为涌现

论文选择 RWKV-4-World 模型作为语言模型基座,实验结果验证了其强大性能:

1. 胜率碾压

完整训练框架(RL + 听说)的 RWKV R L + L + S \text {RWKV}_{RL + L + S} RWKVRL+L+S 模型(RWKV-4-World-1.5B), Among US 游戏胜率是传统强化学习模型的 2 倍且优于 4 倍参数量的 RWKV 基底模型(RWKV-4-World-7B)

不同算法训练的模型在“基础环境”中的胜率,经过完整框架训练的 RWKV 模型(橙色)明显领先传统 RL 模型。

上图:不同算法训练的模型在基础环境(2 × 2 网格,每名队员 4 项任务,共 5 名玩家)中的胜率,经过完整框架训练的 RWKV 模型(橙色)胜率大幅领先传统 RL 模型(浅灰色)。

在未训练过的环境配置中(如不同地图布局、任务数量),RWKV 模型仍能保持高胜率,展现了强大的泛化能力。

rwkv-win-rate

上图:使用不同算法训练的 AI 船员,在不同环境配置下的获胜率,环境修改包括更改游戏地图形状、任务数量和玩家数量。

2. 类人行为涌现

AI 学会指控嫌疑人(如“Player Green 在尸体房间离开”),会提供证据支持自己的观点。甚至会编造谎言,试图误导队友(类似人类玩家策略)。

3. 强适应能力

值得一提的是,游戏里的内鬼也是特别强化(反指控、转移焦点等)过的,其损失函数:

L i m p ( π ) = L R L ( π ) + E ⁡ τ i ∼ Π ∑ t [ λ S γ t r t s ] L_{\mathrm{imp}}(\pi)=L_{\mathrm{RL}}(\pi)+\underset{\tau^i\sim\Pi}{\operatorname*{\mathbb{E}}}\sum_{t}[\lambda_{\mathrm{S}}\gamma^{t}r_{t}^{s}] Limp(π)=LRL(π)+τiΠEt[λSγtrts]

然而,面对自适应训练的内鬼,RWKV 船员仍能保持 50% 以上胜率,展现了强大的抗干扰能力。

实验数据验证了 RWKV 在多智能体社交推理中的卓越性能,更揭示了 RWKV 在轻量化部署与长序列决策场景的独特优势。

未来工作

论文作者表示后续将开展更多 RWKV 相关研究,包括:

  • 训练 RWKV 模型去塑造其他 LLM 智能体的行为和逻辑
  • 训练 RWKV 向人类解释多智能体的团队决策逻辑
  • 高效的世界建模
  • 利用 RWKV 长序列处理能力分析市场数据,实现金融时序预测
  • RWKV 4/5/6/7 的纯 Jax 实现,实现更高效训练和推理

此外,作者认为 RWKV 的 state tuning 在多智能体的研究上拥有极大的优势。 通过切换 state 来改变智能体的“基因”,远比切换模型、切换 LoRA 等方式更方便、更无缝。

RWKV 端侧部署优化

UVa(弗吉尼亚大学) 团队提出了 RWKV-Lite,一套从模型架构优化到后训练压缩的高效 RWKV 模型压缩技术

在保持模型准确率基本不变的情况下,RWKV-Lite 将内存占用降低了 3.4 – 5 倍;若结合量化,整体内存需求甚至可降低 10 倍。与此同时,该方法带来的计算开销微乎其微,非常适合边缘部署。

该论文已被机器学习顶会 ICML 2024 收录。论文地址:https://arxiv.org/html/2412.10856v3

论文首页

RWKV-Lite 的压缩方向大致有以下三点:

  1. 低秩近似(Low-Rank Approximation)

针对 RWKV 块中的投影权重矩阵(如 channel-mixtime-mix 层),通过**奇异值分解(SVD)**将大型矩阵拆分为两个低秩矩阵,减少参数量的同时保留关键信息。

实验显示,低秩压缩可实现 4 倍参数压缩,且可以通过持续训练(Continual Training)恢复精度损失。

  1. 稀疏性利用(Sparsity Exploitation)

发现 RWKV 的 FFN 层存在显著稀疏性(67%-83% 的神经元激活率为零),提出混合预测器(MLP + 1-bit 量化)动态加载关键神经元权重,减少推理时内存占用。

  1. 嵌入缓存与分层分类头
  • 嵌入缓存:通过缓存高频词嵌入,减少对大型嵌入层的依赖
  • 分层分类头:将词汇表聚类,仅加载与当前预测相关的词权重

下图是论文演示在一个可穿戴设备上运行压缩后的 RWKV 模型(带可视化屏幕),开发板型号为 Orange Pi Zero 2W,板载 CPU 1.5GHz 4x Cortex-A53,内存 4GB 。

运行 RWKV 模型的可穿戴设备

欢迎开展 RWKV 学术研究

我们欢迎大家基于最新最强的 RWKV-7 架构开展学术研究!

最新发布的 RWKV-7 2.9B 模型在各类评测中表现出色,其英文和多语言能力显著超越所有同尺寸模型(英文评测 71.1%,多语言评测 62.3%),超越了包括 Llama 3.2 3B(英文评测 68.7%,多语言评测 57.3%)、Qwen2.5 3B(英文评测 68.6%,多语言评测 57.0%)等知名优秀开源模型。

此外,我们为 RWKV 学术研究提供全面的支持和激励,包括:

  • 力所能及的技术支持算力支持,具体支持请在公众号内发消息联系我们沟通
  • 对 RWKV 学术研究提供生态奖金,详情查看:RWKV 2025 生态内容征集大赛

微软已经将 RWKV 全面引入 Windows 10/11 系统,足以证明 RWKV 的端侧优势。

Windows 系统内置 RWKV 运行库

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值