目录
1.1.1 语言大模型(LLM)驱动的机器人任务规划:从语义接地到物理涌现的鸿沟
1.1.2 视觉-语言-动作(VLA)模型:端到端范式的胜利与诅咒
1.1.3 面向机器人的世界模型与基础模型:从表征学习到物理模拟
1.1.4 模仿学习与强化学习的最新结合:弥合演示与自主学习的鸿沟
1.3.1 趋势一: Sim-to-Real -> Real-to-Sim -> Sim-to-Real的闭环
1.3.2 趋势二: 数据引擎:从“大数据”到“好数据”和“广数据”
1.3.3 趋势三: 通用性(Generalization):解构“通用”
引言: 本模块假设读者已具备机器人学、机器学习(特别是深度学习、强化学习和模仿学习)以及自然语言处理(特别是Transformer架构)的扎实基础。我们的目标不是复述已知成果,而是剖析这些成果背后的核心机制、揭示其固有的局限性,并探讨正在塑造下一代具身智能研究的开放性问题。
第1章:全球具身智能研究最新动态(2023-2025)
1.1 学术界最新研究浪潮:范式迁移与核心挑战
2023-2025年的核心叙事是从“规则与符号”到“数据与扩展”(Scaling)的彻底转变。大型模型,特别是多模态基础模型,不再仅仅是工具,而成为了构建机器人智能的核心假设。然而,这一转变也带来了新的、更为艰巨的挑战。
1.1.1 语言大模型(LLM)驱动的机器人任务规划:从语义接地到物理涌现的鸿沟
LLM在任务规划中的应用已经超越了简单的指令分解。当前的研究焦点在于如何解决LLM的物理不接地性(Physical Ungroundedness)和开环执行(Open-loop Execution)的脆弱性。
-
核心机制分析:
-
SayCan框架的深层剖析: SayCan的本质是一种概率性过滤机制。LLM (PLLM(action∣instruction)) 提供一个宽泛的先验,而 affordance 函数 (Paffordance(action∣state)) 则作为基于当前物理状态的似然。最终策略 π(action∣state,instruction)∝PLLM⋅Paffordance。这里的关键瓶颈在于affordance函数的泛化能力。它通常是一个独立训练的VLM,其本身就需要大量的机器人交互数据,这构成了一个“先有鸡还是先有蛋”的困境。
-
“代码即策略”(Code as Policies): 这是一个更具结构化的范式。LLM(特别是经过代码训练的,如Codex/GPT-4)直接生成调用机器人控制API的Python脚本。这种方法的优势在于:
-
组合性: 利用代码的模块化和流程控制(循环、条件判断),可以生成比简单动作序列复杂得多的行为。
-
可解释性与可调试性: 生成的代码是人类可读的,便于调试和修改。
-
物理API约束: LLM的输出被限制在有效的API调用集合内,天然地约束了其行为空间,缓解了“物理幻觉”。
-
-
开放性问题与研究前沿:
-
闭环重规划: 当前大多数框架在执行失败后缺乏有效的重规划能力。如何建立一个快速的感知-规划-行动-反馈循环,让LLM能够根据执行时产生的错误(例如,
pick(cup)失败)动态修正其后续计划,是当前研究的核心。这涉及到状态的实时更新、失败原因的诊断以及规划的回溯。 -
隐式与显式规划的权衡: LLM提供的是显式、符号化的规划。而端到端模型(见1.1.2)则进行隐式的、在潜空间中的规划。二者如何结合?一种可能的方向是,用LLM进行高层次的长期任务规划,而用VLA模型执行低层次的、反应式的短期技能。
-
-
1.1.2 视觉-语言-动作(VLA)模型:端到端范式的胜利与诅咒
VLA模型,如RT-2,代表了具身智能领域的“ImageNet时刻”的曙光。其核心假设是,通过在一个巨大的模型中联合处理多模态数据,可以涌现出物理世界的常识,而无需显式建模。
-
架构与训练细节:
-
Co-finetuning(协同微调): RT-2成功的关键并非从零开始训练,而是对一个预训练的强大VLM(PaLM-E)进行微调。重要的是,微调过程中VLM的主体权重大部分被冻结,仅在机器人数据上微调一小部分参数或Adapter。这有效防止了在稀疏的机器人数据上训练时发生的灾难性遗忘(Catastrophic Forgetting),保留了模型从Web规模数据中学到的通用知识。
-
动作的表征与离散化: 这是VLA模型的一个核心技术挑战。如何将连续的6-DoF/7-DoF的机器人末端位姿或关节角度,转换为Transformer能够处理的离散token序列?
-
RT-1: 采用简单的维度独立分箱(Discretization by Binning),将每个动作维度(x, y, z, roll, pitch, yaw, gripper)量化到256个bins中。简单有效,但可能丢失精度并遭受维度诅咒。
-
未来方向: 探索更先进的表征方法,如使用
Residual VQ-VAE学习一个动作的离散码本(codebook),或直接采用扩散模型(Diffusion Models)作为策略,在连续动作空间中生成动作,这正在成为一个极具前景的研究方向。
-
-
-
开放性问题与研究前沿:
-
泛化能力的边界: RT-2展示了对语义和视觉概念的泛化。但它对物理属性(如质量、摩擦力、刚度)的泛化能力仍然很弱。模型本质上是在进行一种复杂的“视觉模式匹配”,而非真正的物理推理。
-
数据效率与扩展法则(Scaling Laws): VLA模型对数据的需求是贪婪的。当前的研究正在探索其扩展法则:性能与模型参数量、数据量之间是否存在类似LLM的幂律关系?这直接关系到该技术路线的经济可行性。
-
长时序与接触密集型任务(Long-horizon & Contact-rich Tasks): 当前VLA模型主要在短时序、非接触或简单接触的任务上表现良好。对于需要精确力控制和持续物理交互的任务(如拧螺丝、插拔连接器),其性能会急剧下降。这暴露了单纯从像素到动作的学习范式的局限性。
-
1.1.3 面向机器人的世界模型与基础模型:从表征学习到物理模拟
这一方向试图回答一个更根本的问题:机器人是否需要一个关于世界如何运作的内部预测模型?
-
世界模型(World Models):
-
机制: 其核心是学习一个在潜空间(Latent Space)中的动态模型 zt+1=f(zt,at)。这使得机器人可以在“梦境”(Dream)中,即在计算成本极低的潜空间中,快速模拟不同动作序列的长期后果,从而实现高效的Model-Predictive Control (MPC)。代表性工作如
DreamerV3。 -
挑战: 学习一个能够精确预测复杂、随机动态环境(特别是多物体交互)的潜空间模型极其困难。当前模型在处理非预期事件或长时序预测时,其“梦境”会很快发散。
-
-
基础模型(Foundation Models):
-
NVIDIA GR00T的战略赌注: GR00T的核心假设是,一个在海量、多样化的具身数据(仿真为主,真实为辅)上训练的、足够大的多模态Transformer,将能隐式地学习到物理世界模型。它不再显式地分离状态表征、动态预测和策略学习,而是相信这些能力会从端到端的预测任务中涌现。
-
核心争论: 这是当前领域内的一个关键哲学和技术路线之争:我们应该追求一个统一的、端到端的通用模型(如GR00T),还是一个模块化的、由多个专家模型(如规划、感知、控制)组成的系统?前者可能实现更高的性能上限和更强的泛化,但可解释性和可靠性差;后者更符合传统机器人学思想,但可能存在模块间的信息瓶颈和集成挑战。
-
1.1.4 模仿学习与强化学习的最新结合:弥合演示与自主学习的鸿沟
IL和RL的结合正从简单的“演示预热”走向更深度的融合,旨在最大化数据效率和策略性能。
-
扩散策略(Diffusion Policies):
-
为何有效: 传统行为克隆(BC)学习的是专家动作的均值,导致策略是确定性的,并且在多模态(multi-modal)专家演示(例如,从左边或右边抓取物体都是有效的)上表现不佳。扩散模型作为一种生成模型,能够学习整个专家动作的分布,从而在推理时可以生成多样且高质量的动作序列。其去噪过程天然地引入了随机性,有利于探索。
-
-
离线强化学习(Offline RL)的现实:
-
核心挑战: 分布外(OOD)动作的过高Q值估计。标准RL算法会利用Q函数中的误差,选择那些在数据集中未见过但被错误地赋予高值的动作。
-
主流解法: 策略约束(Policy Constraint)或保守Q学习(Conservative Q-Learning, CQL)。其核心思想是,学习到的策略 π 不应偏离数据集中的行为策略 β 太远。CQL通过在标准贝尔曼误差上增加一个正则项来实现,该正则项惩罚OOD动作的Q值,同时提升数据集内动作的Q值。
-
-
前沿方向:来自AI反馈的强化学习(RLAIF):
-
机制: 这是将RLHF应用于机器人领域。其流程为:机器人执行任务 -> VLM作为裁判,根据预设的自然语言准则(例如,“机器人是否将红色物体放入了篮子?”)或通过视觉问答对结果进行评分 -> 该评分作为稀疏奖励信号,用于更新策略。
-
意义与挑战: 这极大地降低了奖励函数工程的难度,使得我们可以定义复杂的、基于语义的奖励。然而,VLM裁判的一致性、偏见和可靠性是巨大的未知数。如何确保VLM的判断与真实任务目标一致,是一个活跃的研究领域。
-
1.2 国际顶级实验室与科技巨头布局:战略意图与哲学差异
-
Google DeepMind: 秉持“AI优先”原则,其战略是通过扩展(Scaling) VLA模型,将Web规模的知识直接“蒸馏”到机器人控制中。他们相信,通用的物理智能最终将从海量多模态数据中涌现。其路径依赖于谷歌强大的数据和计算基础设施。
-
NVIDIA: 采取“平台+生态”战略。他们不一定自己制造最好的机器人,但他们致力于提供训练最好机器人的核心基础设施(Omniverse/Isaac Sim)。GR00T是其平台上的一个“灯塔项目”,旨在展示其全栈能力的极限,并推动行业标准的形成。他们的赌注是仿真将成为解决机器人数据瓶颈的唯一可行路径。
-
OpenAI & Figure AI: 这一联盟代表了**“顶级大脑”+“顶级身体”的精英整合路线。其核心是探索SOTA大模型在先进人形机器人硬件上的能力边界,特别是聚焦于人机交互的自然性和零样本任务执行**。这是一种快速验证LLM物理能力的捷径。
-
Tesla: 奉行**“垂直整合+实用主义”。与追求通用人工智能不同,Tesla的目标是解决特定且高价值的自动化问题(首先是自己的工厂)。其核心优势在于:(1) 对硬件到软件的完全控制;(2) 预期中由Optimus机队本身构成的庞大、同质化的真实世界数据收集闭环**。
-
学术重镇 (Stanford/CMU/UC Berkeley等): 扮演着探索者和批判者的角色。他们专注于:
-
低成本数据收集范式: 如Stanford Mobile Aloha,证明了高质量模仿学习数据的价值,并推动了开源硬件生态。
-
新传感与驱动: 探索标准视觉之外的模态,如触觉、力和声音,这对于解决接触密集型任务至关重要。
-
理论基础: 研究机器人学习中的安全性、鲁棒性和因果推断等工业界可能暂时忽视的基础问题。
-
1.3 技术趋势分析与展望:核心研究问题
1.3.1 趋势一: Sim-to-Real -> Real-to-Sim -> Sim-to-Real的闭环
-
新范式: 未来的主流将不再是单向的Sim-to-Real迁移,而是一个双向的、持续迭代的闭环。
-
Sim-to-Real: 在仿真中进行大规模训练。
-
Real-to-Sim: 在真实世界中部署模型,收集其失败案例或与仿真不一致的数据。利用这些数据,通过系统辨识(System Identification)或对抗性学习,自动优化和修正仿真器(例如,学习更真实的摩擦系数、物体质量分布)。
-
循环: 将修正后的仿真器用于下一轮更大规模的训练。这个飞轮的转速,决定了模型迭代的效率。
-
1.3.2 趋势二: 数据引擎:从“大数据”到“好数据”和“广数据”
-
超越模仿学习: 当前数据来源主要是模仿学习,但这有其内在天花板——机器人无法超越其演示者。
-
数据来源的未来组合:
-
无监督/自监督的人类视频: 如何从YouTube等海量的人类活动视频中学习技能(所谓的“被动数据”)?这是极具挑战但潜力巨大的方向,需要解决视角差异、形态差异(Embodiment Mismatch)和意图推断等核心问题。
-
大规模自主探索: 结合RL和内在动机(Intrinsic Motivation),让机器人在安全的环境中大规模地、自主地进行探索和试错,收集模仿学习无法提供的数据。
-
Open X-Embodiment等联盟项目: 解决“数据孤岛”问题。通过将来自不同实验室、不同形态的机器人的数据汇集起来,训练一个更具通用性的基础模型。其核心挑战在于数据格式的标准化和跨形态动作空间的归一化。
-
1.3.3 趋势三: 通用性(Generalization):解构“通用”
-
通用性的层次:
-
技能内泛化 (Intra-skill Generalization): 对同一技能下的不同对象和环境的适应能力(例如,抓取所有类型的杯子)。这是当前VLA模型正在努力解决的问题。
-
技能间泛化 (Inter-skill Generalization): 学习到一种技能(如“推”)能够加速学习另一种相关技能(如“滑动”)。这要求模型学习到可组合的、底层的物理基元(Physics Primitives)。
-
任务泛化 (Task Generalization): 在没有明确指令的情况下,面对一个新场景,能够自主地设定有意义的目标并完成任务。这是通往AGI(通用人工智能)的长期目标,需要模型具备因果推理和高级规划能力。
-
-
研究方向: 探索如何构建具有**组合性(Compositionality)和系统性(Systematicity)**的表征,使得模型能够像人类一样举一反三,而非仅仅依赖于海量数据的模式匹配。这是从“弱泛化”迈向“强泛化”的关键。
131

被折叠的 条评论
为什么被折叠?



