论文信息
团队:清华大学人工智能产业研究院AIR + 上海AI lab
时间:2025年
问题背景
- 跨本体的适配性。不同本体采用的数据存在异构性,即机器人构型不同(单机械臂,双机械臂等),模态不同(相机,雷达),安装视角不同等。其次是数据分布不同,比如同样的指令,单机械臂和多机械臂的操作方式不一定相同。
- 可扩展性。当遇到新的机器人时,原有的方法是需要收集大量相应的数据,然后新增一个解码头decoder head进行训练。这个过程涉及到主干网络的重训,cost很大。
解决方法
- soft prompt。给每个机器人一个身份信息,即soft prompt,本质上是可学习的嵌入(learnable embedding),把这个信息拼接到图像等信息之后,注入到模型中,作为模型识别这是哪个模型的数据用,从而调节模型的输出分布。
- 当新增一个机器人时,只需要给定其soft prompt,然后用LoRA微调1%(大约9M)的参数量即可。由于不需要重训主干网络,所以非常适合扩展。
该方法其实是对NLP领域的知识迁移:
在 NLP 领域,最近比较火热的研究方向是参数高效微调(Parameter-Efficient Fine-tuning,PEFT),其中一个研究方向是软提示学习(Soft Prompt Learning)。
因为针对目前已经训练好的大模型,需要使其适配到不同的垂类场景中。如果采用普通微调的方式,会针对所有参数进行调整,cost很大,而且分布变了之后可能会造成灾难性遗忘;其次数据量很少的话,会导致过拟合。因此提出了软提示学习的方式,在部署垂类应用时,只需要在本地存储很少量的soft prompt即可。
研究表明:只需训练少量 prompt 向量,就能让冻结的 LLM 适应新任务。
X-VLA 将这一思想迁移到具身智能体领域,把“任务类型”换成了“机器人身份”,同样奏效。
输出
输出末端执行的轨迹(每个轨迹点包含x/y/z的位置信息和角度信息)以及是否抓取。
轨迹在下游通过IK等方式解决。
实验效果
6个仿真环境和3个真机环境实验,整体达到SOTA。注意并非每个都是第一。
重要意义
将NLP领域的Soft Prompt Learning思想借鉴到机器人中,虽然不是架构创新(比如Transformer),但是能够以高效的方式解决机器人领域最关注的可扩展性问题,确实具备重要意义。
1273

被折叠的 条评论
为什么被折叠?



