VAGEN :多轮强化学习训练视觉Agent
项目介绍
VAGEN 是一个专为视觉语言模型(VLM)Agent 设计的多轮强化学习框架。它通过利用 TRICO(Turn-aware Reason-Interaction Chain Optimization)算法,有效提升 VLM 在视觉代理任务中的性能。VAGEN 的核心在于优化决策过程中的关键 tokens,而非传统强化学习框架中对所有 tokens 一视同仁的做法。
项目技术分析
VAGEN 引入了两种关键技术创新来优化 VLM 的训练过程:
- 选择性 Token 掩码:通过损失掩码(
M^loss)和优势掩码(M^adv),专注于对决策至关重要的 tokens 进行优化。 - 跨轮信用分配:通过双层优势估计和在每个交互边界应用轮级奖励,实现更有效的信用归因。
这些创新解决了传统 RL 框架在处理 VLM Agent 时所面临的问题,如分布偏移和状态冗余。
项目及技术应用场景
VAGEN 适用于需要视觉推理能力的复杂任务,如视觉 Sokoban 游戏等。这类任务中,Agent 需要在多轮交互中理解视觉信息并作出决策。VAGEN 通过优化关键决策 tokens 和创建更细致的奖励结构,提高了 VLM Agent 在这些任务中的表现。
项目特点
- 选择性 Token 优化:通过专注于关键决策 tokens,VAGEN 提高了学习效率。
- 细致的奖励结构:通过跨轮信用分配,VAGEN 能够更好地反映 Agent 的表现。
- 显著的性能提升:实验结果表明,TRICO 算法在视觉代理任务中显著优于传统方法。
- 灵活的配置:VAGEN 提供了多种算法选项和配置设置,以适应不同的训练需求。
实验结果
在视觉 Sokoban 任务中使用 Qwen-VL 3B 模型的实验表明,TRICO 算法在视觉代理任务中的表现显著优于 RICO。选择性 Token 掩码和跨轮信用分配都对性能提升有重要贡献。
算法比较
以下是 PPO、RICO 和 TRICO 三种算法的比较:
| 特性 | PPO | RICO | TRICO(我们的算法) |
| --- | --- | --- | --- |
| 序列结构 | 单个响应 | 多轮交互 | 多轮交互 |
| LM 输出 | 无特殊结构 | <think>...</think><ans>...</ans> | <think>...</think><ans>...</ans><eoa> |
| 折扣 | 单一折扣率 | 单一折扣率 | 双层折扣 |
| 优化 | 所有 tokens 平等 | 所有 tokens 平等 | 选择性 Token 优化 |
推荐理由
VAGEN 的设计和实现为视觉语言模型在复杂任务中的训练提供了新的视角和方法。通过专注于关键决策 tokens,它不仅提高了学习效率,还通过细致的奖励结构实现了更准确的性能评估。VAGEN 的灵活配置和显著的性能提升使其成为强化学习领域的一个重要进展。
对于研究人员和开发者来说,VAGEN 提供了一个强大的工具来探索和实现视觉代理任务的强化学习解决方案。其开放源代码的特性使得社区可以进一步改进和扩展这一框架,推动强化学习在视觉领域的发展。
通过使用 VAGEN,研究人员可以更好地理解视觉代理在多轮交互中的决策过程,从而为未来的智能系统设计提供有价值的数据和见解。我们强烈推荐对强化学习和视觉代理任务感兴趣的读者尝试和采用 VAGEN。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



