点击下方卡片,关注“具身智能之心”公众号
作者丨Meng Li等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。

1简介
Introduction
- 基于模仿学习,目前主流的多任务 VLA 模型及其训练方式无法很好的应对任务变更问题。比如,当任务A进行一半时,此时切换任务B,大部分方法解决该问题的能力十分薄弱。
- 诸如此类问题我们定义为 Task Switching,即“任务切换”。为解决该问题,我们设计了执行感知(Execution-Aware)机制,通过极简的形式表示了任务切换的情况。在模型侧采用了轻量化的网络架构,并设计了新的训练范式及数据采样算法。
- 我们的方法轻量(0.27B)且无需额外收集遥操数据,便可实现任务切换功能,并大幅超越现有 SOTA VLA 方法。
- 论文地址:https://arxiv.org/abs/2506.03574
- 项目网站:https://switchvla.github.io/
- 作者团队:北京人形机器人创新中心
2背景
Background
- 基于 Imitation Learning(IL)训练的多任务 VLA 已成为趋势,目前主流的 VLA 模型通过输入视觉信息+机器人状态+任务描述,输出动作的形式,进行多任务训练。
- 然而,在同一场景下,每个任务通常为独立采集,采集时并未与其他任务产生联系。这使得通常采集时,任务A的结束状态,与任务B的开始状态需要尽可能一致,才可在任务A结束时顺利切换任务B。另外,当人在与多任务 VLA 互动的时候,人并不会在所有情况下都耐心等待机器人完成当前任务,再下达新的指令。同时,机器人也不一定恰好每次都在完成任务状态接受到新的指令。以便利店场景为例,机器人在拿某个商品时,客人有可能会改变主意,说“我不想要这个了”。
- 以上问题我们定义为 Task Switching,即“任务切换”。我们发现,目前现有 SOTA VLA 及其训练方式,解决该问题的能力十分薄弱。

π0 在切换任务“开抽屉” ➜ “可乐放到托盘上”遇到困难
3现有方法
Intuition
1. 大模型任务规划
比较直观的方式,便是利用现有大模型的反思能力,针对任务切换时进行判断及重规划。我们相信这种方式在未来可以解决该问题,但前提是算力与模型支持瞬间决策的能力(100毫秒内)— 很显然,这种方式还有比较长的路要走。现阶段,机器人拿一样物品可能只需要几秒钟,等大模型规划出合适的策略,任务早已执行完成了。
算力瓶颈、高延迟、无法瞬间决策
2. 模仿学习,采集任务切换数据
目前很多工作,通过补采两个任务之间连接的数据,将任务切换看上去更加智能和丝滑,但很明显,这种方式通常消耗大量采集资源,且无法扩展到所有场景中。
消耗大量采集资源,不可扩展
3. 基于规则
另外一种比较容易想到的方法是写一些 if-else语句进行约束,比如:
“if 正在执行任务A and 切换任务B,则将任务A回退100步,再执行任务B”,这种方式劣势很明显—不智能,无法覆盖所有case,换个场景、物品、需求,可能就要重写规则了。
不智能、无法覆盖所有case、难迁移

SwitchVLA

SwitchVLA 尝试解决的问题
1. 如何不额外采集数据,就可以表示任务切换的情况,并完成任务切换?
2. 如何训练出不需要复杂规则,完全根据当前情况自主判断的端到端模仿学习模型?
—这是 SwitchVLA 尝试解决的两个核心问题

SwitchVLA 成功完成切换任务“开抽屉” ➜ “可乐放到托盘上”
4主要方法
Method
1. 任务切换表示
目前主流 VLA 方法的训练方式,即输入视觉信息+机器人状态+任务描述,输出动作的形式,几乎无法感知到任务是否切换。在设计任务切换时,我们设计了一种极简且有效的任务切换表示,即上一任务+当前任务+上一任务所处阶段,替换了任务描述作为输入。
上一任务+当前任务+上一任务所处阶段
2. 模型侧改进
我们发现,通过简单的将三种信息的 token 拼接(concatenate),即可有效表示任务切换。如下图模型架构所示,拼接后的任务切换特征不仅经过了多模态融合 VLM 模型,同样经过压缩后,与机器人当前状态,与动作噪声,同时输入至了动作专家模型,并进行了当前状态与是否接触双重预测,使其在推理过程中可实时感知当前任务所处阶段。我们使用了轻量级 VLM—Florence-2-base 作为我们的主干网络,通过其轻量化(0.23B)支持快速流畅的任务切换能力。
轻量化网络与Instruction & Contact Aggregator

3. 训练流程改进
- 我们将一个任务简化为3个阶段,即
接触物品前,接触物品中,接触物品后,
并设计了在三种阶段时,切换任务时分别对应的表现——接触前:下一任务继续执行(forward);接触中:上一任务退回(rollback);接触后:去往下一任务出发点(advance)。
- 下一个改进点,也是 SwitchVLA 的核心问题,如何不使用额外采集的数据,即可让 VLA 模型训练出 forward、rollback 和 advance 三种表现呢?forward 自然不用说,我们数据里按时间顺序记录的数据 a_{t+1:t+k} 都为 forward 动作;rollback 动作的获取,我们这里使用了时间逆序的数据,即 a_{t-1:t-k};advance 动作,我们使用下一任务的初始状态平均值,与当前状态进行插值即可获得。
- 我们的工作验证了,即使不用采集时的顺序动作,也一样可以训练出想要的动作方式。
阶段定义及动作获取
4. 训练数据采样算法
在训练时,每种任务切换表示,都对应着相应的动作。简单来说,我们通过随机采样任务切换表示,并根据采样的结果,分配对应的动作。这种方法是可扩展的(不一定要用接触信息作为阶段判断形式),可根据使用情况自行改进。如下图以及算法所示,这里不过多描述,感兴趣的朋友可以参见论文。
训练数据采样流程


5实验结果
Experiment
1. 任务切换实验
针对任务切换,我们设计了两种实验,分别是一对任务进行切换,以及一长串任务进行切换(更具挑战),分别在真机8个任务,和仿真8个任务进行了充分的实验,此外,我们同样在单任务上进行了比较。实验表明,我们的方法在单任务上以更小的参数量(0.27B)和主流的方法(如 π0,3.3B)达到不相上下的效果;在切换任务上显著领先其他方法。
单任务、一对任务、长串任务实验
2. 任务切换失败原因分析
此外,我们还将失败的原因大致分为四种类型,并在实验中统计了切换任务时失败的原因,发现我们设计的方法有效的解决了切换失败的问题。
切换任务失败原因分析



6总结与展望
Conclusion
- 我们提出了 SwitchVLA,一种轻量化、无需额外数据采集的动态任务感知与决策方法。SwitchVLA 分别从模型侧、训练层面、以及数据层面针对性地解决了任务切换问题,在单任务上保持和 SOTA VLA 相同表现,在切换任务上大幅超越现有方法。
- 未来我们将持续迭代 SwitchVLA,并部署在天工人形机器人,结合通用具身智能平台“慧思开物”,赋能工业柔性生产、商业个性化服务等领域,使天工机器人具备高精度丝滑流畅操作、复杂任务随机应变、高效快速响应等能力。
感谢阅读
联系人:Gary Li
联系方式:gary.li@x-humanoid.com
论文地址:https://arxiv.org/abs/2506.03574
项目网站:https://switchvla.github.io/


被折叠的 条评论
为什么被折叠?



