Stanford 团队展现 RWKV 多智能体优势，UVa 团队突破 RWKV 端侧性能

本文链接：https://blog.youkuaiyun.com/rwkvteam/article/details/145709569

近日 RWKV 生态新增来自海外名校的两项工作：Stanford（斯坦福大学）团队的 RWKV 多智能体研究，和 UVa（弗吉尼亚大学）团队的 RWKV 端侧优化研究。

RWKV 多智能体强化学习

开源项目地址：https://socialdeductionllm.github.io/
论文：https://arxiv.org/abs/2502.06060

四名斯坦福大学研究人员共同发布了《Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning》论文，研究使用多智能体强化学习（multi-agent reinforcement learning）训练 RWKV 模型，使其能通过自然语言交流完成 《Among Us》游戏的推理过程并赢下游戏。

论文已被 AAMAS 2025 主会（口头报告）接收，论文作者在 RWKV Discord 频道分享了这一消息，并分享了“为什么使用 RWKV-4-World 模型”。

为何选择 RWKV 而非 Transformer？ 因为 RWKV 的显存占用恒定、理论上支持无限上下文长度。Among Us 游戏单局轨迹可达数万 token，Transformer 模型显存占用过高，而 RWKV 的循环结构通过 T-BPTT 实现无限上下文训练，单 GPU 即可完成训练（论文的实验基于一张 48G 显存的 A40 显卡）
为何使用 RWKV-4，而非性能更好的 RWKV-5/6/7 模型？ 研究在 2023 年夏季启动，当时 RWKV-4 是唯一可用版本。团队通过修改 RWKV-4 的 CUDA 内核优化计算效率，没有时间适配 RWKV 新架构。未来计划适配 RWKV-7，进一步提升模型性能。

论文作者在 RWKV Discord 频道分享

接下来我们一起看看该工作的创新点，以及 RWKV 模型在论文中表现出来的强大性能：

游戏规则

《Among Us》是类似于狼人杀/鸭鹅杀的社交推理游戏。

游戏规则：在一辆宇宙飞船上有船员（Crewmates）和内鬼（Impostors）两种角色。内鬼的目标是暗中破坏飞船设施、杀死船员，并在讨论时伪装成普通船员以避免被发现，船员的目标则是通过讨论进行逻辑推理，然后投票淘汰内鬼。

Among Us 示例

下图是论文中智能体在《Among Us》游戏的循环示意图，游戏开始时同时向所有智能体发送观察结果，然后在每个时间步从一组有效的行动中收集标记化的行动历史。

游戏的循环过程

无需人工数据，纯 Self-Play

这项工作创新的地方在于完全不依赖人工标注数据，而是通过纯自我对抗学习（Self-Play） 如环境反馈（投票结果、任务进度）和智能体（Agent）间交互来训练 AI 的语言交流能力。AI 智能体通过多轮博弈，逐步学习如何在讨论中提取关键信息，并形成自己的投票策略。

完整的训练框架引入了 RL + 听说双重训练机制。先通过强化学习（RL），使得 AI 在没有人工数据示例的情况下学会如何行动。

以下是用于优化 AI 长期游戏胜率的强化学习损失函数，同时使用 KL 约束 ( $\lambda_{\text{KL}}$ ) 限制 AI 不能偏离自然语言分布。

$L_{\text{RL}}(\pi) = -\underset{\tau^i\sim\Pi}{\operatorname*{\mathbb{E}}} \sum_t \left[ \gamma^t r_t^i + \lambda_{\text{NL}} \log \left( \frac{\pi (a_t^i | \tau_t^i)}{\pi_{\text{RWKV}} (a_t^i | \tau_t^i)} \right) \right]$

此外，研究团队引入了一种新的听/说双重奖励机制：

听力奖励（Listening Reward）：听力的损失函数： $L_{\text{L}}(\pi, \tau_t^i) = - \log \pi (q | \tau_t^i)$ ，用于训练 AI 通过讨论预测环境信息，从而预测谁是内鬼。

融合听力奖励后，强化学习的损失函数如下：

$L_{\text{RL+L}}(\pi) = L_{\text{RL}}(\pi) + \underset{\tau^i\sim\Pi}{\operatorname*{\mathbb{E}}} \sum_t \lambda_L L_{\text{L}}(\pi, \tau_t^i)$

表达奖励（Speaking Reward）：奖励 AI 生成能影响队友决策的消息，好的发言会获得更高的奖励

$r_t^s = B_t - B_{t'}$

$B_t = \sum_{k \in C_t} \pi^k (q | \tau_t^k)$

融合了 RL + 听说双重奖励后，用于训练智能体的强化学习损失函数如下：

$L_{\text{RL+L+S}}(\pi) = L_{\text{RL+L}}(\pi) - \underset{\tau^i\sim\Pi}{\operatorname*{\mathbb{E}}} \sum_t [\lambda_S \gamma^t r_t^s]$

但RL 算法非常善于 Hack 规则的漏洞。如果不加干预，智能体可能会抓住 Among Us 游戏规则的漏洞来“作弊”并进入失效模式（Failure Modes），比如船员们使用非自然语言来“对暗号”（非自然语言交流），或者在讨论阶段集体沉默等内鬼说话（作弊合作）等。

失效模式与解决方案

为了避免模型偏离自然语言的轨道或偏离任务目标，作者团队采取了一些巧妙的解决方案：

KL 约束：为了避免模型在讨论过程中“跑偏”，团队在训练中加入了 KL 约束（强化学习损失函数中的 $\lambda_{\text{KL}}$ ），强制模型始终保持使用自然语言进行交流
冻结部分智能体：为了防止模型在训练过程中学会不自然的策略（比如大家都不发言，只等内鬼发言），研究团队选择冻结部分智能体，让它不参与策略调整，从而避免了“集体摆烂”的现象
世界建模损失（World Modeling Loss）：为了确保模型在每次讨论时都能记住重要的上下文信息，论文引入了世界建模损失：

$L_{\text{WM}}(\pi) = - \underset{\tau^i\sim\Pi}{\operatorname*{\mathbb{E}}} \sum_t \lambda_{\text{WM}} \log \pi (o_{t+1}^i | \tau_t^i, a_t^i)$

世界建模损失用于帮助智能体学习更长期、更合理的策略，避免出现像等待策略（Waiting Strategy，智能体一直待在起始房间不动，然后投票淘汰移动过的玩家）等退化现象。这些策略虽然在短期内有效，但严重破坏了游戏的真实性和挑战性。

最终，完整的损失函数结合了强化学习（RL）、听力（Listening）、表达（Speaking）、世界建模（WM）：

$L_{\text{total}}(\pi) = L_{\text{RL+L+S}}(\pi) + L_{\text{WM}}(\pi)$

通过新颖的“听说奖励” 结合 KL 约束和世界建模损失等优化，斯坦福团队的研究突破了 RL 传统上的局限，训练出来的 $\text {RWKV}_{RL + L + S}$ 模型在社交推理任务中展现出了更接近人类的行为模式，为多智能体协作和复杂场景下的语言模型训练提供了新范式。

RWKV 模型：胜率碾压 + 类人行为涌现

论文选择 RWKV-4-World 模型作为语言模型基座，实验结果验证了其强大性能：

1. 胜率碾压

完整训练框架（RL + 听说）的 $\text {RWKV}_{RL + L + S}$ 模型（RWKV-4-World-1.5B）， Among US 游戏胜率是传统强化学习模型的 2 倍，且优于 4 倍参数量的 RWKV 基底模型（RWKV-4-World-7B）。

不同算法训练的模型在“基础环境”中的胜率，经过完整框架训练的 RWKV 模型（橙色）明显领先传统 RL 模型。

上图：不同算法训练的模型在基础环境（2 × 2 网格，每名队员 4 项任务，共 5 名玩家）中的胜率，经过完整框架训练的 RWKV 模型（橙色）胜率大幅领先传统 RL 模型（浅灰色）。

在未训练过的环境配置中（如不同地图布局、任务数量），RWKV 模型仍能保持高胜率，展现了强大的泛化能力。

rwkv-win-rate

上图：使用不同算法训练的 AI 船员，在不同环境配置下的获胜率，环境修改包括更改游戏地图形状、任务数量和玩家数量。

2. 类人行为涌现

AI 学会指控嫌疑人（如“Player Green 在尸体房间离开”），会提供证据支持自己的观点。甚至会编造谎言，试图误导队友（类似人类玩家策略）。

3. 强适应能力

值得一提的是，游戏里的内鬼也是特别强化（反指控、转移焦点等）过的，其损失函数：

$L_{\mathrm{imp}}(\pi)=L_{\mathrm{RL}}(\pi)+\underset{\tau^i\sim\Pi}{\operatorname*{\mathbb{E}}}\sum_{t}[\lambda_{\mathrm{S}}\gamma^{t}r_{t}^{s}]$

然而，面对自适应训练的内鬼，RWKV 船员仍能保持 50% 以上胜率，展现了强大的抗干扰能力。

实验数据验证了 RWKV 在多智能体社交推理中的卓越性能，更揭示了 RWKV 在轻量化部署与长序列决策场景的独特优势。

未来工作

论文作者表示后续将开展更多 RWKV 相关研究，包括：

训练 RWKV 模型去塑造其他 LLM 智能体的行为和逻辑
训练 RWKV 向人类解释多智能体的团队决策逻辑
高效的世界建模
利用 RWKV 长序列处理能力分析市场数据，实现金融时序预测
RWKV 4/5/6/7 的纯 Jax 实现，实现更高效训练和推理

此外，作者认为 RWKV 的 state tuning 在多智能体的研究上拥有极大的优势。 通过切换 state 来改变智能体的“基因”，远比切换模型、切换 LoRA 等方式更方便、更无缝。

RWKV 端侧部署优化

UVa（弗吉尼亚大学）团队提出了 RWKV-Lite，一套从模型架构优化到后训练压缩的高效 RWKV 模型压缩技术。

在保持模型准确率基本不变的情况下，RWKV-Lite 将内存占用降低了 3.4 – 5 倍；若结合量化，整体内存需求甚至可降低 10 倍。与此同时，该方法带来的计算开销微乎其微，非常适合边缘部署。

该论文已被机器学习顶会 ICML 2024 收录。论文地址：https://arxiv.org/html/2412.10856v3

论文首页

RWKV-Lite 的压缩方向大致有以下三点：

低秩近似（Low-Rank Approximation）

针对 RWKV 块中的投影权重矩阵（如 channel-mix 和 time-mix 层），通过**奇异值分解（SVD）**将大型矩阵拆分为两个低秩矩阵，减少参数量的同时保留关键信息。

实验显示，低秩压缩可实现 4 倍参数压缩，且可以通过持续训练（Continual Training）恢复精度损失。

稀疏性利用（Sparsity Exploitation）

发现 RWKV 的 FFN 层存在显著稀疏性（67%-83% 的神经元激活率为零），提出混合预测器（MLP + 1-bit 量化）动态加载关键神经元权重，减少推理时内存占用。

嵌入缓存与分层分类头

嵌入缓存：通过缓存高频词嵌入，减少对大型嵌入层的依赖
分层分类头：将词汇表聚类，仅加载与当前预测相关的词权重

下图是论文演示在一个可穿戴设备上运行压缩后的 RWKV 模型（带可视化屏幕），开发板型号为 Orange Pi Zero 2W，板载 CPU 1.5GHz 4x Cortex-A53，内存 4GB 。

运行 RWKV 模型的可穿戴设备

欢迎开展 RWKV 学术研究

我们欢迎大家基于最新最强的 RWKV-7 架构开展学术研究！

最新发布的 RWKV-7 2.9B 模型在各类评测中表现出色，其英文和多语言能力显著超越所有同尺寸模型（英文评测 71.1%，多语言评测 62.3%），超越了包括 Llama 3.2 3B（英文评测 68.7%，多语言评测 57.3%）、Qwen2.5 3B（英文评测 68.6%，多语言评测 57.0%）等知名优秀开源模型。

此外，我们为 RWKV 学术研究提供全面的支持和激励，包括：