盘点 | 5年VLA进化之路,45篇代表性工作!它凭什么成为具身智能「新范式」?

图片

图片

具身智能的大脑是怎么炼成的?

时至今日,“具身智能”无疑是最炙手可热的技术关键词之一。

而 VLA(Vision-Language-Action Models),作为与之紧密相关的前沿方向,堪称 AI 从 “会思考” 迈向 “能行动” 的关键跳板,也频繁现身于顶尖机构报告、学术峰会的核心议题。

图片

VLA模型的火爆并不是偶然。作为具身的“大脑”,它远非简单的“看图说话”或传统的程序化控制。

VLA的核心使命,在于无缝打通“感知-理解-决策-执行”的闭环:让机器人既能理解复杂自然语言,又能识别真实环境,并做出符合人类语义预期的动作。

这种“多模态+行为决策”的融合能力,正是构建真正通用智能体的关键所在。

从实验室的初步探索,到如今能执行整理房间、收拾餐具等复杂任务的先进系统(如π系列),VLA的发展轨迹清晰而迅猛。

本文将梳理近五年间VLA领域的关键突破与技术演进,看它如何一步步从理论构想走向现实应用。

图片

▲图1|这张图展示了 VLA 模型的发展历程¹:从视觉、语言、动作各自为战的孤立系统,逐步走向三者深度融合的统一架构。VLA 模型让机器人能够同时具备感知环境、理解语言和执行动作的能力,打破了早期方法中感知与控制割裂的局限,标志着通向适应性强、可泛化、具智能的具身智能体迈出了关键一步©️【深蓝具身智能】编译

我们将通过 2020–2025 年的代表性工作,勾勒出 VLA 技术是如何从“能看、能听”逐步演进为“能理解、能执行”的。

(注:由于篇幅限制,这里仅选取代表中的“代表”进行梳理,全部45篇见文末参考1。)

VLA,全称 Vision-Language-Action,是一种能同时理解视觉图像、自然语言,并生成动作控制指令的 AI 模型架构。

它的特别之处在于,不再是分模块“各自为政”,而是将“感知、理解、决策”整合进一个统一框架中。

你可以把它理解为——在过去,我们需要分别训练图像识别模型、语义理解模型、控制策略模型;而现在,VLA 希望一个模型就能从图片和语言中“看懂任务”,并“动手完成”。

这项技术的重要性不言而喻。无论是家庭服务机器人、仓储物流、手术助理,还是自主车辆与智能助理,只要涉及“与人类沟通+在真实世界行动”,都需要 VLA 模型提供支撑。

它正逐渐成为具身智能的核心引擎。

接下来,我们将以每年几个代表模型的方式,盘点近五年来 VLA 模型如何从早期的任务特化系统,发展为今天具备开放指令理解和通用控制能力的“大脑中枢”。

图片

▲图2|近几年VLA领域的代表作汇总(约45篇,可以查看文末参考文献1,找到每篇文章的链接)©️【深蓝具身智能】编译

2020–2021:VLN-BERT 与 CLIPort —— VLA 的雏形在导航与操作中萌芽

VLA 模型的技术基础,最早可追溯到视觉语言导航(VLN)与操控任务中对“感知+语言”的统一建模需求。

2020 年提出的 VLN-BERT² 是第一个将 BERT 应用于导航任务的多模态 Transformer 模型。

它将视觉输入、语言指令和历史路径状态编码为统一的 token 序列,并通过多层 cross-modal attention 解码导航动作,显著提升了导航准确率,也开启了“语言能驱动动作”的研究思路。

图片

▲图3|VLN-BERT原理

2021 年,华盛顿大学的 CLIPort³ 则进一步探索了语言与操作动作的映射。

它将 CLIP 的图文对齐能力引入到机器人操作中,通过图像和自然语言任务描述,引导低维动作的生成,在多任务少样本场景下展示了强泛化能力。

例如,CLIPort 可以在训练中只见过“把红杯子放入盒子”,但在测试时完成“把蓝碗放到右边”这样的新指令动作。

这是端到端地把语言、视觉与动作联系起来的早期成功实践。

图片

▲图4|CLIPort框架©️【深蓝具身智能】编译

虽然这阶段的模型仍偏向任务专用、结构分离,但为后续统一建模的 VLA 模型奠定了技术路径—— 

语言不仅是解释器,更是直接驱动动作生成的接口。

2021–2022:SayCan 与 Perceiver-Actor-Critic —— 从理解语言到执行策略的关键跳跃

在 CLIPport 等模型展示语言-动作联系的可能性后,研究者开始探索如何将语言决策嵌入具身策略执行中。

2022 年 Google 推出的 SayCan⁴ 是这一方向的代表作,它提出了一种“语言概率 × 执行可行性”的组合策略。

先用大语言模型(如 PaLM)生成可能的任务计划,再通过强化学习训练的价值网络评估每条指令的可执行性。最终控制机器人完成如“把瓶子放到水槽里”的复杂自然语言任务。

SayCan 将语言理解与动作策略明确解耦,提升了规划鲁棒性,同时增强了指令的可解释性。

图片

▲图5|VLA语言理解到执行方式流程一览©️【深蓝具身智能】编译

同年,DeepMind 推出的 Perceiver-Actor-Critic⁵ 则在模型结构上进行创新。

其使用 Perceiver 模型对多模态输入进行统一编码,并通过 Transformer 解码动作值函数。它支持从图像、语言、状态等多模态输入中直接输出动作分布,是早期尝试用大模型进行策略学习的重要一步。

这一时期的研究显著推动了“语言作为任务接口”与“跨模态策略学习”的结合,逐步建立起 VLA 模型具备通用规划、评估与执行能力的雏形,也为 RT 系列的诞生打下了基础。

2022–2023:RT 系列 —— 从多模态感知到动作控制的统一尝试

VLA模型真正走入大众视野,是从谷歌 Robotics 团队的 RT 系列开始的。

RT-1⁶ 是最早将 Transformer 应用于真实机器人控制的尝试,它基于 13 万段人类操作示范构建多模态训练集,以图像、语言指令和连续控制信号作为输入,训练机器人理解语言并直接输出低维动作控制。这一模型首次展示了机器人可以通过一个统一的 Transformer 框架,在厨房环境中完成诸如“把可乐放进冰箱”这样的多步骤任务。

图片

▲图6|RT-1方法流程及总体训练框架©️【深蓝具身智能】编译

随后 RT-2⁷ 更进一步:它不仅继续采用 Transformer 结构,还将 CLIP 等视觉语言基础模型引入控制流程中。

首次实现了网页知识到机器人动作的转移。也就是说,机器人不再仅依赖训练时见过的任务,而是可以理解来自互联网上的开放语言描述,并将其转化为实际行为。

RT-1与 RT-2系列的工作奠定了“图像+语言+动作”统一建模的 VLA 基线,也引发了整个具身智能领域对通用机器人控制的广泛关注。

2023–2024:OpenVLA —— 从封闭系统走向开放世界的第一步

RT 系列展示了通用 VLA 控制模型的可行性,但也暴露出一个关键问题:闭源、难复现、无法扩展。

为打破这一瓶颈,斯坦福、伯克利与 Toyota Research Institute 等机构联合推出了 OpenVLA⁸。

一个真正意义上的开源、可复现、可微调的通用 VLA 模型。

视频1|OpenVLA框架介绍↓↓↓

盘点 | 5年VLA进化之路,45篇代表性工作!它凭什么成为具身智能「新范式」?https://mp.weixin.qq.com/s/6wC9JtyTEE5oJ1SHnWxcdA

OpenVLA 基于 LLaMA 2 的 7B 参数语言模型,融合 SigLIP 与 DINOv2 提供的视觉特征,使用 Open-X Embodiment 提供的 97 万条真实机器人演示轨迹训练,任务涵盖物体摆放、器具清理、多物体分类等,机器人可根据语言指令快速适配多种身体形态(如 WidowX、Franka 等)。令人惊艳的是,OpenVLA 以远小于 RT-2-X 的模型规模(7B vs. 55B),在 BridgeData V2 等多任务测试中反而取得更优结果。

除了表现优异,它还具备实用性:支持 LoRA 微调、4-bit 量化、低成本部署,普通 RTX4090 即可运行。

OpenVLA 成为“人人都能用”的通用 VLA 控制器,也推动 VLA 模型从“实验室演示”走向“落地场景”。

延伸阅读:照搬=最佳实践?分享真正的 VLA 微调高手,“常用”的3大具身智能VLA模型!https://mp.weixin.qq.com/s?__biz=MzkwMDcyNDUzMQ==&mid=2247486453&idx=1&sn=338bad4a03a35729bec735fd0d8957dc&scene=21#wechat_redirect

2024–2025:π 系列 —— 重构从语言到动作的高效泛化路径

继 OpenVLA 推动模型开源之后,谷歌 DeepMind 提出的 π 系列(π0 与 π0.5) 开始重新思考一个问题:如何以最简结构实现最强泛化?

π⁹ 系列提出了一种全新的思路,即用流匹配(Flow Matching)机制取代传统序列解码器。将动作表示为连续空间的概率分布,从而让机器人可以精准生成“完整的动作轨迹”,而非仅仅输出下一个动作 token。

图片

▲图7|π系列方法核心框架©️【深蓝具身智能】编译

π0 以单一模型在多种任务中实现高成功率,展示了 Transformer 架构在处理长时序动作预测中的优势。

π0.5¹⁰ 更进一步,通过构建大规模异构数据集(包含模拟演示、真实家庭数据、网络图文数据等)。

在不牺牲控制精度的前提下实现真正的“任务泛化”和“环境泛化”。它首次在未知家庭场景中完成如厨房清理、卧室收纳等多步骤任务,标志着 VLA 模型已具备向现实世界大规模推广的能力。

视频2|机经过在海量数据上的训练与学习,VLA模型具备在真实场景多任务的泛化能力↓↓↓

盘点 | 5年VLA进化之路,45篇代表性工作!它凭什么成为具身智能「新范式」?https://mp.weixin.qq.com/s/6wC9JtyTEE5oJ1SHnWxcdA

π 系列不仅继承了 RT 的统一建模精神,也在训练范式和控制输出方式上进行了彻底革新,为未来“类人”通用智能体奠定技术基础。

延伸阅读:π0.5泛化真的强吗?(伪代码篇)VLA模型深度解析:从预备知识到训练方法https://mp.weixin.qq.com/s?__biz=MzkwMDcyNDUzMQ==&mid=2247487799&idx=1&sn=5ac8a33275e277ecf643fda212bde9fe&scene=21#wechat_redirect

一个统一的名字,一类正在成型的方法范式

当然,VLA作为一个快速发展的庞大新兴领域,一篇文章难以尽善尽美的概括。此外,如今提到 VLA模型,很多研究者都不再把它当作某个具体模型的名字,而是视为一类新兴的模型范式

除了本文介绍的框架外,当前的 VLA 研究正在迅速分化出多种技术路径。例如:

  • 在模型结构上有采用自回归架构(如 RT 系列、π 系列),也有基于扩散模型的动作解码器(如 Octo、CogACT);

  • 在输入输出层面,有模型接受视觉轨迹(TraceVLA)、3D点云(3D-VLA),也有关注 token 表达压缩(如 FAST);

  • 还有模型专为不同场景设计:有的用于双臂操作(RDT-1B),有的服务于四足机器人(QUAR-VLA),有的面向自动驾驶、家庭服务等垂直领域。

  • 同时,越来越多研究开始采用双系统分层架构,模拟人类的 System 1(快速反应)和 System 2(深度推理)模式。如 Hi-Robot 将任务推理交给 VLM,低级动作控制交由 VLA 模块执行,而 GROOT N-1 则整合语言规划与运动执行于模拟器数据中训练。这类架构为实现更强的泛化与实时性提供了可行路径。

延伸阅读:逆天!Figure AI 全球首个完全端到端机器人AI系统,实现35自由度、200Hz连续精准控制!https://mp.weixin.qq.com/s?__biz=MzkwMDcyNDUzMQ==&mid=2247485644&idx=1&sn=91756fa7bf61134d31206e269bbf5d4f&scene=21#wechat_redirect

如今,VLA 不再只是一个模型,更像是一种快速进化的思维方式:让机器人直接“读懂世界”并“动起来”。

它正在成为连接大模型与真实世界的关键桥梁……

回顾过去五年,VLA 模型的发展几乎可以视为具身智能进化的一条主干路线。

从早期的任务特化导航器与操作器,到如今能够理解语言、解析图像并生成复杂动作的通用智能体,VLA 模型正在悄然改变我们对“机器人”的认知。

它不再只是一个程序化的执行机器,而是开始具备类人的理解与行为能力。我们看到模型从 RT 系列的统一感知控制出发,走向 OpenVLA 的开源共建,再到 π 系列在泛化控制上的突破。

VLA 正在逐步具备“听得懂人话、看得懂环境、做得出动作”的完整闭环能力。

未来,随着训练数据更加多样、模型结构更高效、感知与动作更贴近物理世界,VLA 模型将不仅服务于家庭机器人、工业自动化或自动驾驶,更可能成为 AI 与现实世界交互的通用接口。具身智能的“大脑”已经开始形成,而下一个五年,或许就是它开始“真正思考”的时候。

参考资料:

1.Vision-Language-Action Models: Concepts, Progress, Applications and Challenges

2. VLN BERT: A Recurrent Vision-and-Language BERT for Navigation

3. CLIPORT: What and Where Pathways for Robotic Manipulation

4. Do As I Can, Not As I Say: Grounding Language in Robotic Affordances

5. Offline Actor-Critic Reinforcement Learning Scales to Large Models

6. RT-1: ROBOTICS TRANSFORMER FOR REAL-WORLD CONTROL AT SCALE

7. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

8. OpenVLA: An Open-Source Vision-Language-Action Model

9. π0: A Vision-Language-Action Flow Model for General Robot Control

10. π0.5: a VLA with Open-World Generalization

<think>好的,我现在需要处理用户关于具身智能算法的询问。首先,我得回顾用户提供的引用内容,确保回答符合他们的需求。用户之前提到的引用1到4主要涉及具身智能的基本概念、核心要点、现状以及实现方式。他们现在想了解具身智能相关的算法,包括实现和介绍。 首先,我需要明确具身智能的定义。根据引用3,具身智能强调智能体通过身体与环境交互来实现智能。这意味着算法需要整合感知、行动和反馈。接下来,用户可能想知道具体的算法类型和它们的应用。 根据引用4,具身智能本体通过传感器获取信息,进行任务分解和环境理解,然后自主编程完成任务。这说明算法需要处理多模态数据,比如视觉和语言,并做出决策。这可能涉及到强化学习、模仿学习、多模态融合等技术。 用户的问题分为算法实现和介绍两部分,所以需要分点回答。可能的结构是:首先概述具身智能算法的核心模块,如感知、决策、控制,然后介绍具体的技术,如强化学习、模仿学习,接着讨论实现框架,最后举应用案例。 需要注意的是,用户提供的引用中没有具体的算法名称,但提到了动态环境适应、自主决策等。因此,需要结合常见的具身智能算法,如深度强化学习(DRL)、视觉-语言-动作模型(VLA),以及仿真训练平台如Isaac Gym。 还要确保回答符合系统级指令,比如使用正确的中文和LaTeX格式,生成相关问题。同时,引用需要自然地附加在相关段落末尾。例如,在讨论感知模块时引用4,在强化学习部分引用3。 可能的问题点:如何将感知、决策、控制模块结合起来?算法如何处理多模态数据?仿真训练的作用是什么?需要确保每个部分都有对应的引用支持,并且技术细节准确。 最后,生成的相关问题需要围绕算法优化、应用场景、挑战等方面,帮助用户深入理解。例如,多模态融合的挑战,仿真到现实的迁移问题,以及伦理考量。 总结步骤:定义具身智能算法,分模块介绍技术,列举具体算法,讨论实现框架,应用案例,最后提出问题。确保每个部分引用合适的来源,保持结构清晰,语言自然。</think>### 具身智能算法实现与介绍 #### 一、具身智能算法核心模块 具身智能算法需融合感知、决策、控制三大模块,实现“身体-环境”动态交互[^3]: 1. **感知模块** 通过多模态传感器(视觉、触觉、语音等)获取环境信息,例如: - 视觉处理:使用卷积神经网络(CNN)提取图像特征 - 语言理解:基于Transformer架构解析指令 引用[4]提到“机器人通过视觉信号和语音信息进行任务分解” 2. **决策模块** 结合强化学习(Reinforcement Learning)和符号推理生成行为策略: $$Q(s,a) = \mathbb{E}\left[ \sum_{t=0}^{\infty} \gamma^t r_t | s_0=s, a_0=a \right]$$ 其中$Q(s,a)$为状态-动作价值函数,$\gamma$为折扣因子 3. **控制模块** 将决策转化为物理动作,常采用运动规划算法(如RRT*)和阻抗控制: $$\tau = J^T(q)F + M(q)\ddot{q} + C(q,\dot{q})$$ 描述机器人动力学模型 --- #### 二、关键算法技术 1. **深度强化学习(DRL)** - 结合深度神经网络与Q-learning,实现复杂环境下的策略优化 - 案例:AlphaGo Zero通过自我对弈提升决策能力[^1] 2. **视觉-语言-动作模型(VLA)** - 多模态大模型统一处理图像、文本和动作序列 - 例如:NVIDIA的VIMA模型可执行“将红色积木放在蓝色盒子左侧”的指令 3. **模仿学习(Imitation Learning)** - 从人类示范数据中学习动作策略 - 数学表达:最小化策略$\pi_\theta$与专家策略$\pi_E$的差异 $$\min_\theta \mathbb{E}_{s\sim d^\pi} [D_{KL}(\pi_E(\cdot|s) \| \pi_\theta(\cdot|s))]$$ --- #### 三、实现框架与工具 1. **仿真训练平台** - Isaac Gym:支持大规模并行机器人仿真 - MuJoCo:高精度物理引擎验证控制算法 2. **算法框架示例(伪代码)** ```python class EmbodiedAgent: def perceive(self, sensors): # 多模态数据融合 vision_feat = CNN(sensors.camera) language_feat = BERT(sensors.text) return fusion(vision_feat, language_feat) def decide(self, state): # 基于DRL的策略网络 action_probs = PolicyNetwork(state) return np.random.choice(actions, p=action_probs) def act(self, action): # 运动控制执行 MotorController.send(action) ``` --- #### 四、典型应用场景 1. 家庭服务机器人(物品整理、老人看护)[^2] 2. 工业自动化(柔性装配、物流分拣) 3. 自动驾驶(复杂路况决策)[^3] ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值