分层端到端VLA和纯端到端VLA有什么区别？

最新推荐文章于 2025-06-23 07:31:21 发布

自动驾驶之心

最新推荐文章于 2025-06-23 07:31:21 发布

阅读量125

点赞数

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247668014&idx=4&sn=c6ad44eded3a6adb8dd28358a5520e7d&chksm=cf9796ea5e74659e56b7aa6051b69fedcfc20651a9291c9c9b55e2829f3ebf14ba23ac9743e6&scene=126&sessionid=0

VLA，Vision-Language-Action模型，是具身智能领域的新范式，从给定的语言指令和视觉信号，直接生成出机器人可执行的动作。这种范式打破了以往只能在单个任务上训练大的局限性，提供了机器人模型往更加通用，场景更加泛化的方向发展。VLA模型在学术界和工业界的重要性主要体现在其将视觉信息、语言指令和行动决策有效整合，显著提升了机器人对复杂环境的理解和适应能力。

这种新范式打破了传统方法的单任务局限，使得机器人能够在多样化的场景中自主决策，灵活应对未见过的环境，广泛应用于制造业、物流和家庭服务等领域。此外，VLA模型已成为研究热点，推动了多个前沿项目的发展，如RT-2、OpenVLA、QUAR-VLA和HumanVLA，这些研究促进了学术界与工业界的合作。其适应性体现在能够应用于机械臂、四足机器人和人形机器人等多种平台，为各类智能机器人的发展提供了广泛的潜力和实际应用价值，成为智能机器人领域的关键驱动力。

对于VLA构成的机器人系统来说，主要包括：视觉的感知处理模块，语言指令的理解以及生成机器人可执行动作的策略网络。根据不同的需求，目前的VLA主要分为三类范式：显示端到到VLA，隐式端到端VLA以及分层端到端VLA。

显示端到到VLA，是最常见最经典的范式。通常是将视觉语言信息压缩成联合的表征，然后再基于这个表征去重新映射到动作空间，生成对应的动作。这类端到端的范式依赖于先前广泛的研究先验，通过不同架构（diffusion/ transformer/dit），不同的模型大小，不同的应用场景（2d/3d）,不同的任务需求（从头训/下游微调），产生了各类不同的方案，取得了不错的性能。

隐式端到端VLA，则不同于前者，更加关注工作的可解释性，旨在利用当前的video diffusion模型实现未来状态的预测，再根据未来的状态通过逆运动学规律生成未来可执行的动作。通过显式的生成未来观测不仅提高了可解释性，同样也增加了避开机器人动作而scalingVLA模型的潜能。

分层端到端VLA，则关注于充分利用大小模型的特点，提升模型的泛化性同时也保留对于下游执行频率的高效性，近来也成为了研究的热点。

入门学习依然很困难？

无论是显示端到到VLA，还是隐式/分层端到端VLA，其中涉及到的模块、细节众多。这类知识点琐碎，系统也比较复杂，如果没有比较好的教程带着入门，往往会踩坑，后期不知道怎么学习。如何进行感知编码、动作生成？不同架构的优缺点是什么？泛化性和通用性如何保留？数据是怎么采集的？联合训练怎么做？这些都是阻挡新手入门以及进阶的难点。

为此，我们联合业界知名的机器人系统与算法专家，联合展开了业内首门面向具身智能的VLA理论与实战课程，让大家真正能够学得透彻，后期配有代码讲解，助力大家真正从实现的角度上搞懂算法。课程大纲：