【论文阅读】X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model

论文信息

团队:清华大学人工智能产业研究院AIR + 上海AI lab
时间:2025年

问题背景

  1. 跨本体的适配性。不同本体采用的数据存在异构性,即机器人构型不同(单机械臂,双机械臂等),模态不同(相机,雷达),安装视角不同等。其次是数据分布不同,比如同样的指令,单机械臂和多机械臂的操作方式不一定相同。
  2. 可扩展性。当遇到新的机器人时,原有的方法是需要收集大量相应的数据,然后新增一个解码头decoder head进行训练。这个过程涉及到主干网络的重训,cost很大。

解决方法

  1. soft prompt。给每个机器人一个身份信息,即soft prompt,本质上是可学习的嵌入(learnable embedding),把这个信息拼接到图像等信息之后,注入到模型中,作为模型识别这是哪个模型的数据用,从而调节模型的输出分布。
  2. 当新增一个机器人时,只需要给定其soft prompt,然后用LoRA微调1%(大约9M)的参数量即可。由于不需要重训主干网络,所以非常适合扩展。

该方法其实是对NLP领域的知识迁移:

在 NLP 领域,最近比较火热的研究方向是参数高效微调(Parameter-Efficient Fine-tuning,PEFT),其中一个研究方向是软提示学习(Soft Prompt Learning)

因为针对目前已经训练好的大模型,需要使其适配到不同的垂类场景中。如果采用普通微调的方式,会针对所有参数进行调整,cost很大,而且分布变了之后可能会造成灾难性遗忘;其次数据量很少的话,会导致过拟合。因此提出了软提示学习的方式,在部署垂类应用时,只需要在本地存储很少量的soft prompt即可。

研究表明:只需训练少量 prompt 向量,就能让冻结的 LLM 适应新任务

X-VLA 将这一思想迁移到具身智能体领域,把“任务类型”换成了“机器人身份”,同样奏效。

输出

输出末端执行的轨迹(每个轨迹点包含x/y/z的位置信息和角度信息)以及是否抓取。

轨迹在下游通过IK等方式解决。

实验效果

6个仿真环境和3个真机环境实验,整体达到SOTA。注意并非每个都是第一。

重要意义

将NLP领域的Soft Prompt Learning思想借鉴到机器人中,虽然不是架构创新(比如Transformer),但是能够以高效的方式解决机器人领域最关注的可扩展性问题,确实具备重要意义。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值