具身智能的大脑是怎么炼成的?
时至今日,“具身智能”无疑是最炙手可热的技术关键词之一。
而 VLA(Vision-Language-Action Models),作为与之紧密相关的前沿方向,堪称 AI 从 “会思考” 迈向 “能行动” 的关键跳板,也频繁现身于顶尖机构报告、学术峰会的核心议题。
VLA模型的火爆并不是偶然。作为具身的“大脑”,它远非简单的“看图说话”或传统的程序化控制。
VLA的核心使命,在于无缝打通“感知-理解-决策-执行”的闭环:让机器人既能理解复杂自然语言,又能识别真实环境,并做出符合人类语义预期的动作。
这种“多模态+行为决策”的融合能力,正是构建真正通用智能体的关键所在。
从实验室的初步探索,到如今能执行整理房间、收拾餐具等复杂任务的先进系统(如π系列),VLA的发展轨迹清晰而迅猛。
本文将梳理近五年间VLA领域的关键突破与技术演进,看它如何一步步从理论构想走向现实应用。
▲图1|这张图展示了 VLA 模型的发展历程¹:从视觉、语言、动作各自为战的孤立系统,逐步走向三者深度融合的统一架构。VLA 模型让机器人能够同时具备感知环境、理解语言和执行动作的能力,打破了早期方法中感知与控制割裂的局限,标志着通向适应性强、可泛化、具智能的具身智能体迈出了关键一步©️【深蓝具身智能】编译
我们将通过 2020–2025 年的代表性工作,勾勒出 VLA 技术是如何从“能看、能听”逐步演进为“能理解、能执行”的。
(注:由于篇幅限制,这里仅选取代表中的“代表”进行梳理,全部45篇见文末参考1。)
VLA,全称 Vision-Language-Action,是一种能同时理解视觉图像、自然语言,并生成动作控制指令的 AI 模型架构。
它的特别之处在于,不再是分模块“各自为政”,而是将“感知、理解、决策”整合进一个统一框架中。
你可以把它理解为——在过去,我们需要分别训练图像识别模型、语义理解模型、控制策略模型;而现在,VLA 希望一个模型就能从图片和语言中“看懂任务”,并“动手完成”。
这项技术的重要性不言而喻。无论是家庭服务机器人、仓储物流、手术助理,还是自主车辆与智能助理,只要涉及“与人类沟通+在真实世界行动”,都需要 VLA 模型提供支撑。
它正逐渐成为具身智能的核心引擎。
接下来,我们将以每年几个代表模型的方式,盘点近五年来 VLA 模型如何从早期的任务特化系统,发展为今天具备开放指令理解和通用控制能力的“大脑中枢”。
▲图2|近几年VLA领域的代表作汇总(约45篇,可以查看文末参考文献1,找到每篇文章的链接)©️【深蓝具身智能】编译
2020–2021:VLN-BERT 与 CLIPort —— VLA 的雏形在导航与操作中萌芽
VLA 模型的技术基础,最早可追溯到视觉语言导航(VLN)与操控任务中对“感知+语言”的统一建模需求。
2020 年提出的 VLN-BERT² 是第一个将 BERT 应用于导航任务的多模态 Transformer 模型。
它将视觉输入、语言指令和历史路径状态编码为统一的 token 序列,并通过多层 cross-modal attention 解码导航动作,显著提升了导航准确率,也开启了“语言能驱动动作”的研究思路。
▲图3|VLN-BERT原理
2021 年,华盛顿大学的 CLIPort³ 则进一步探索了语言与操作动作的映射。
它将 CLIP 的图文对齐能力引入到机器人操作中,通过图像和自然语言任务描述,引导低维动作的生成,在多任务少样本场景下展示了强泛化能力。
例如,CLIPort 可以在训练中只见过“把红杯子放入盒子”,但在测试时完成“把蓝碗放到右边”这样的新指令动作。
这是端到端地把语言、视觉与动作联系起来的早期成功实践。
▲图4|CLIPort框架©️【深蓝具身智能】编译
虽然这阶段的模型仍偏向任务专用、结构分离,但为后续统一建模的 VLA 模型奠定了技术路径——
语言不仅是解释器,更是直接驱动动作生成的接口。
2021–2022:SayCan 与 Perceiver-Actor-Critic —— 从理解语言到执行策略的关键跳跃
在 CLIPport 等模型展示语言-动作联系的可能性后,研究者开始探索如何将语言决策嵌入具身策略执行中。
2022 年 Google 推出的 SayCan⁴ 是这一方向的代表作,它提出了一种“语言概率 × 执行可行性”的组合策略。
先用大语言模型(如 PaLM)生成可能的任务计划,再通过强化学习训练的价值网络评估每条指令的可执行性。最终控制机器人完成如“把瓶子放到水槽里”的复杂自然语言任务。
SayCan 将语言理解与动作策略明确解耦,提升了规划鲁棒性,同时增强了指令的可解释性。
▲图5|VLA语言理解到执行方式流程一览©️【深蓝具身智能】编译
同年,DeepMind 推出的 Perceiver-Actor-Critic⁵ 则在模型结构上进行创新。
其使用 Perceiver 模型对多模态输入进行统一编码,并通过 Transformer 解码动作值函数。它支持从图像、语言、状态等多模态输入中直接输出动作分布,是早期尝试用大模型进行策略学习的重要一步。
这一时期的研究显著推动了“语言作为任务接口”与“跨模态策略学习”的结合,逐步建立起 VLA 模型具备通用规划、评估与执行能力的雏形,也为 RT 系列的诞生打下了基础。
2022–2023:RT 系列 —— 从多模态感知到动作控制的统一尝试
VLA模型真正走入大众视野,是从谷歌 Robotics 团队的 RT 系列开始的。
RT-1⁶ 是最早将 Transformer 应用于真实机器人控制的尝试,它基于 13 万段人类操作示范构建多模态训练集,以图像、语言指令和连续控制信号作为输入,训练机器人理解语言并直接输出低维动作控制。这一模型首次展示了机器人可以通过一个统一的 Transformer 框架,在厨房环境中完成诸如“把可乐放进冰箱”这样的多步骤任务。
▲图6|RT-1方法流程及总体训练框架©️【深蓝具身智能】编译
随后 RT-2⁷ 更进一步:它不仅继续采用 Transformer 结构,还将 CLIP 等视觉语言基础模型引入控制流程中。
首次实现了网页知识到机器人动作的转移。也就是说,机器人不再仅依赖训练时见过的任务,而是可以理解来自互联网上的开放语言描述,并将其转化为实际行为。
RT-1与 RT-2系列的工作奠定了“图像+语言+动作”统一建模的 VLA 基线,也引发了整个具身智能领域对通用机器人控制的广泛关注。
2023–2024:OpenVLA —— 从封闭系统走向开放世界的第一步
RT 系列展示了通用 VLA 控制模型的可行性,但也暴露出一个关键问题:闭源、难复现、无法扩展。
为打破这一瓶颈,斯坦福、伯克利与 Toyota Research Institute 等机构联合推出了 OpenVLA⁸。
一个真正意义上的开源、可复现、可微调的通用 VLA 模型。
视频1|OpenVLA框架介绍↓↓↓
盘点 | 5年VLA进化之路,45篇代表性工作!它凭什么成为具身智能「新范式」?https://mp.weixin.qq.com/s/6wC9JtyTEE5oJ1SHnWxcdA
OpenVLA 基于 LLaMA 2 的 7B 参数语言模型,融合 SigLIP 与 DINOv2 提供的视觉特征,使用 Open-X Embodiment 提供的 97 万条真实机器人演示轨迹训练,任务涵盖物体摆放、器具清理、多物体分类等,机器人可根据语言指令快速适配多种身体形态(如 WidowX、Franka 等)。令人惊艳的是,OpenVLA 以远小于 RT-2-X 的模型规模(7B vs. 55B),在 BridgeData V2 等多任务测试中反而取得更优结果。
除了表现优异,它还具备实用性:支持 LoRA 微调、4-bit 量化、低成本部署,普通 RTX4090 即可运行。
OpenVLA 成为“人人都能用”的通用 VLA 控制器,也推动 VLA 模型从“实验室演示”走向“落地场景”。
2024–2025:π 系列 —— 重构从语言到动作的高效泛化路径
继 OpenVLA 推动模型开源之后,谷歌 DeepMind 提出的 π 系列(π0 与 π0.5) 开始重新思考一个问题:如何以最简结构实现最强泛化?
π⁹ 系列提出了一种全新的思路,即用流匹配(Flow Matching)机制取代传统序列解码器。将动作表示为连续空间的概率分布,从而让机器人可以精准生成“完整的动作轨迹”,而非仅仅输出下一个动作 token。
▲图7|π系列方法核心框架©️【深蓝具身智能】编译
π0 以单一模型在多种任务中实现高成功率,展示了 Transformer 架构在处理长时序动作预测中的优势。
π0.5¹⁰ 更进一步,通过构建大规模异构数据集(包含模拟演示、真实家庭数据、网络图文数据等)。
在不牺牲控制精度的前提下实现真正的“任务泛化”和“环境泛化”。它首次在未知家庭场景中完成如厨房清理、卧室收纳等多步骤任务,标志着 VLA 模型已具备向现实世界大规模推广的能力。
视频2|机经过在海量数据上的训练与学习,VLA模型具备在真实场景多任务的泛化能力↓↓↓
盘点 | 5年VLA进化之路,45篇代表性工作!它凭什么成为具身智能「新范式」?https://mp.weixin.qq.com/s/6wC9JtyTEE5oJ1SHnWxcdA
π 系列不仅继承了 RT 的统一建模精神,也在训练范式和控制输出方式上进行了彻底革新,为未来“类人”通用智能体奠定技术基础。
一个统一的名字,一类正在成型的方法范式
当然,VLA作为一个快速发展的庞大新兴领域,一篇文章难以尽善尽美的概括。此外,如今提到 VLA模型,很多研究者都不再把它当作某个具体模型的名字,而是视为一类新兴的模型范式。
除了本文介绍的框架外,当前的 VLA 研究正在迅速分化出多种技术路径。例如:
-
在模型结构上有采用自回归架构(如 RT 系列、π 系列),也有基于扩散模型的动作解码器(如 Octo、CogACT);
-
在输入输出层面,有模型接受视觉轨迹(TraceVLA)、3D点云(3D-VLA),也有关注 token 表达压缩(如 FAST);
-
还有模型专为不同场景设计:有的用于双臂操作(RDT-1B),有的服务于四足机器人(QUAR-VLA),有的面向自动驾驶、家庭服务等垂直领域。
-
同时,越来越多研究开始采用双系统分层架构,模拟人类的 System 1(快速反应)和 System 2(深度推理)模式。如 Hi-Robot 将任务推理交给 VLM,低级动作控制交由 VLA 模块执行,而 GROOT N-1 则整合语言规划与运动执行于模拟器数据中训练。这类架构为实现更强的泛化与实时性提供了可行路径。
如今,VLA 不再只是一个模型,更像是一种快速进化的思维方式:让机器人直接“读懂世界”并“动起来”。
它正在成为连接大模型与真实世界的关键桥梁……
回顾过去五年,VLA 模型的发展几乎可以视为具身智能进化的一条主干路线。
从早期的任务特化导航器与操作器,到如今能够理解语言、解析图像并生成复杂动作的通用智能体,VLA 模型正在悄然改变我们对“机器人”的认知。
它不再只是一个程序化的执行机器,而是开始具备类人的理解与行为能力。我们看到模型从 RT 系列的统一感知控制出发,走向 OpenVLA 的开源共建,再到 π 系列在泛化控制上的突破。
VLA 正在逐步具备“听得懂人话、看得懂环境、做得出动作”的完整闭环能力。
未来,随着训练数据更加多样、模型结构更高效、感知与动作更贴近物理世界,VLA 模型将不仅服务于家庭机器人、工业自动化或自动驾驶,更可能成为 AI 与现实世界交互的通用接口。具身智能的“大脑”已经开始形成,而下一个五年,或许就是它开始“真正思考”的时候。
参考资料:
1.Vision-Language-Action Models: Concepts, Progress, Applications and Challenges
2. VLN BERT: A Recurrent Vision-and-Language BERT for Navigation
3. CLIPORT: What and Where Pathways for Robotic Manipulation
4. Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
5. Offline Actor-Critic Reinforcement Learning Scales to Large Models
6. RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE
7. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
8. OpenVLA: An Open-Source Vision-Language-Action Model
9. π0: A Vision-Language-Action Flow Model for General Robot Control
10. π0.5: a VLA with Open-World Generalization