
一、主要内容总结
1. 研究背景与问题
视觉-语言-动作(VLA)模型通常通过在机器人数据上预训练大规模视觉-语言模型(VLM)来连接感知与动作空间,虽能提升性能但伴随高昂的训练成本。现有VLA模型存在依赖大规模VLM、微调速度慢、GPU内存消耗高、推理效率低等瓶颈,核心问题聚焦于如何更高效地搭建视觉-语言表征(VL)到动作(A)的桥梁。
2. 核心方法:VLA-Adapter
- 关键前提:系统分析不同VL条件对动作生成的影响,明确了对桥接感知与动作空间至关重要的条件特征。
- 核心组件:提出含桥接注意力(Bridge Attention)的轻量级策略(Policy)模块,可自主将最优条件注入动作空间。
- 模型配置:采用Qwen2.5-0.5B(0.5B参数)作为默认骨干网络,无需任何机器人数据预训练,Policy参数仅97M,整体可训练参数197.2M。
- 训练特点:端到端训练,采用AdamW优化器与LoRA方案,单消费级GPU仅需8小时即可完成训练。

订阅专栏 解锁全文
1247

被折叠的 条评论
为什么被折叠?



