点击下方卡片,关注“具身智能之心”公众号
作者丨Xiaoxiao Long等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
出发点与工作背景
本综述聚焦具身智能在机器人研究中的前沿进展,指出实现强大具身智能的关键在于物理模拟器与世界模型的整合。物理模拟器提供可控高保真环境用于训练评估机器人智能体,世界模型则赋予机器人环境内部表征能力以支持预测规划与决策。
文中系统回顾了相关最新进展,分析了两者在增强机器人自主性、适应性和泛化能力上的互补作用,探讨了外部模拟与内部建模的相互作用以弥合模拟训练与现实部署的差距。此外,还提及维护了一个包含最新文献和开源项目的资源库,网址为https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey,旨在为具身 AI 系统的发展提供全面视角并明确未来挑战。
一些介绍
随着人工智能与机器人技术的发展,智能体与物理世界的交互成为研究核心。具身智能强调通过与环境的物理交互实现感知、行动和认知,使机器人能基于物理世界反馈调整行为与认知,是通往通用智能的重要部分,其意义不止于物理任务执行,更通过感官输入、运动控制和认知处理的闭环整合,构成真正自主性和适应性的基础。
在智能机器人广泛部署于养老护理等现实场景的背景下,其在动态不确定环境中自主安全运行的能力至关重要,而建立科学合理的机器人智能分级系统需求迫切。尽管近期有相关评估方案、标准及综述,但缺乏整合智能认知、自主行为和社交交互维度的综合分级系统。为此,该工作提出智能机器人能力分级模型,包含从基本机械执行到高级完全自主社交智能的五个渐进级别(IR-L0 到 IR-L4),涵盖自主性、任务处理能力等关键维度,为评估和指导智能机器人发展提供统一框架。

智能机器人的等级
等级标准
该标准根据以下方面对机器人进行分类:它们在各种环境中执行任务的能力、自主决策的深度、交互的复杂性以及伦理认知。涵盖以下核心维度:
机器人独立完成任务的能力,从完全依赖人类控制到完全自主。
机器人能够处理的任务难度,从简单的重复劳动到创新性问题解决。
机器人在动态或极端环境中工作的能力。
机器人理解、与人类社会互动并对社会情境做出反应的能力。
等级因素
机器人的智能水平基于以下五个因素进行分级。
自主性:该因素基于机器人在各种任务中自主决策的能力。
任务处理能力:该因素基于机器人能够执行的任务的复杂性。
环境适应性:该因素基于机器人在不同环境中的表现。
社会认知能力:该因素基于机器人在社会场景中表现出的智能水平。
分类等级

IR-L0:基本执行级别
核心特征:处于系统基础执行层,具备完全非智能、程序驱动的属性。
任务类型:专注于执行高度重复、机械化且确定性的任务,例如工业焊接、固定路径物料搬运等。
运行模式:采用 “低感知 - 高执行” 模式,完全依赖预定义程序指令或实时远程操作,缺乏环境感知、状态反馈及自主决策能力,形成 “命令输入 - 机械执行” 的单向闭环系统。
IR-L1:程序响应级别
核心特征:具备有限的基于规则的反应能力。
任务执行:可执行预定义任务序列,如清洁机器人、接待机器人的任务。
感知能力:借助红外、超声波、压力等基本传感器触发特定行为模式。
局限性:无法处理复杂或不可预见事件,仅能在规则明确的封闭任务环境中保持操作稳定性,体现 “有限感知 - 有限执行” 范式,是基本机器人智能的开端。
IR-L2:基本感知和适应级别
核心进步:引入初步环境意识与自主能力,是机器人智能的重大发展。
能力表现:能对环境变化做出基本响应,并在多种任务模式间转换。例如,服务机器人可根据语音命令执行 “送水”“导航引导” 等不同任务,同时在路径执行中避开障碍物。
技术支撑:需集成摄像头、麦克风阵列、激光雷达等感知模块,以及有限状态机(FSM)或行为树等基本行为决策框架。
IR-L3:类人认知与协作级别
核心能力:可在复杂动态环境中自主决策,支持复杂多模式人机交互。
交互表现:能推断用户意图并调整行为,在伦理约束下运行。例如,养老护理场景中,可通过分析语音模式、面部表情检测老年患者情绪变化,进而做出安慰动作或发出紧急警报。
机器人移动性、灵巧性和交互性
机器人移动性、灵巧性和交互性
相关机器人技术
模型预测控制(MPC):基于优化的方法,利用动态模型预测系统行为,适用于人形机器人这类高维系统,已实现双足机器人的实时控制与复杂动作。
全身控制(WBC):通过协调机器人所有关节和肢体,将运动目标转化为优化问题求解,结合强化学习等技术可实现更自然的全身运动控制。
强化学习(RL):通过与环境交互学习最优动作,适用于高维动态环境,已实现双足机器人动态行走等复杂行为。
模仿学习(IL):通过模仿人类演示学习任务,需解决数据获取与泛化问题,可结合运动捕捉数据实现自然步态。
视觉 - 语言 - 动作模型(VLA):集成视觉、语言与动作,通过预训练模型实现自然语言指令到机器人动作的映射,但存在未见过任务处理与实时性挑战。
机器人运动
腿部运动
1)非结构化环境适应:从早期位置控制到力控关节应用,结合传感器与学习方法,机器人可在崎岖地形、楼梯等复杂环境中稳定行走,如 Cassie 机器人通过动态控制器实现户外草地行走。
2)高动态运动:利用简化动态模型(如 SLIP、LIPM)与强化学习,实现奔跑、跳跃等动作,模仿学习可提升运动自然性。
跌倒保护与恢复
1)基于模型方法:模仿人类跌倒生物力学,通过姿势控制与柔顺策略减少损伤。
2)基于学习方法:通过课程学习与多接触行为模仿,实现机器人从不同姿势的跌倒恢复,如 HoST 方法使机器人在复杂环境中稳健站立。
机器人操作
单手操作任务
1)基于夹具操作:从预编程到基于学习的方法,实现杂乱环境抓取、可变形物体操作等,如 RT2 模型通过视觉 - 语言 - 动作映射处理复杂指令。
2)灵巧手操作:两阶段(生成抓取姿势 + 控制执行)与端到端方法结合,提升泛化能力,DexGraspVLA 实现零样本高成功率抓取。
双手操作任务:从任务分解到端到端学习,如 ALOHA 系列通过大规模演示数据实现双手机器人精细操作,未来向灵巧手协调扩展。
全身操作控制:结合大型预训练模型(LLM、VLM)与视觉演示,实现家庭任务(如清洁、整理)的全身协调,如 HumanPlus 系统通过单目摄像头学习复杂技能。
基础模型应用:分层方法(高级规划 + 低级执行)与端到端 VLA 模型结合,推动机器人操作的泛化与自主决策,如 π0 模型实现跨平台通用控制。
人机交互
认知协作:理解人类显式与隐式意图,通过 LLM 模拟人类认知状态,提升机器人在导航等任务中的语境理解能力。
物理可靠性:通过运动规划(PRM、RRT)与控制策略(阻抗控制)确保人机协作安全,结合模拟生成数据提升机器人动作适应性。
社会嵌入:理解社会空间(个人空间)与行为(语言 / 非语言信号),需解决多模态感知与跨文化适应问题,推动机器人融入社会场景。
通用物理模拟器

主流模拟器
Webots:由 Cyberbotics Ltd. 于 1998 年推出,提供机器人建模、编程和仿真的集成框架,2018 年开源,支持多种传感器和跨平台 API,但缺乏对可变形体和流体动力学的支持。
Gazebo:2002 年由南加州大学开发的开源模拟器,以可扩展性和与机器人 middleware 的集成为特点,支持多种传感器和模块化插件系统,但在高级物理交互方面存在局限。
MuJoCo:2012 年由华盛顿大学开发,后被谷歌 DeepMind 收购,专为关节系统的接触丰富动力学仿真设计,具有高精度物理计算和生物力学建模能力,但渲染功能有限。
PyBullet:2017 年由 Bullet 物理引擎开发者推出,通过 Python 接口提供轻量级仿真平台,因开源和易用性在学术界广泛应用。
CoppeliaSim:前身为 V-REP,支持分布式控制架构,教育版开源,适用于学术和教育场景。
NVIDIA Isaac 系列:包括 Isaac Gym(2021 年推出,支持大规模 GPU 加速物理仿真)、Isaac Sim(集成 Omniverse 平台,支持高保真 LiDAR 仿真)和 Isaac Lab(基于 Isaac Sim 的模块化强化学习框架)。
SAPIEN:2020 年由加州大学圣地亚哥分校等机构开发,用于复杂部件级交互物体的物理逼真建模,配套 ManiSkill 基准。
Genesis:2024 年发布的通用物理仿真平台,统一多种物理求解器,支持生成式数据引擎和可微物理。
Newton:2025 年由 NVIDIA、谷歌 DeepMind 和迪士尼研究院联合开发的开源物理引擎,支持刚体 / 软体动力学和可微物理。
模拟器的物理特性

该表格对比了主流模拟器在物理模拟能力上的差异,涵盖以下关键维度:
物理引擎:各模拟器底层使用的物理计算核心(如 MuJoCo 使用自研引擎,Isaac 系列基于 NVIDIA PhysX)。
特殊物理效果支持:包括吸力建模、随机外力模拟、可变形物体与软体接触的仿真能力,以及流体动力学和离散元方法(DEM)的支持情况。
可微物理:指模拟器是否支持梯度计算(如 MuJoCo、PyBullet 等通过特定模块实现),这对基于学习的控制算法优化至关重要。
关键发现:
高端模拟器(如 Isaac Sim、Genesis)在多物理场支持上更全面,而传统模拟器(如 Webots、Gazebo)在复杂物理交互(如流体、DEM)上存在局限。
可微物理能力主要在科研导向的模拟器(如 MuJoCo、PyBullet)中体现,工业级模拟器(如 Isaac 系列)暂未重点支持。
渲染能力

表格从以下角度评估模拟器的视觉渲染性能:
渲染引擎:底层图形渲染技术(如 OpenGL、Vulkan、Omniverse RTX)。
光线追踪:是否支持物理级光影效果(如全局光照、反射)。
基于物理的渲染(PBR):能否模拟真实材质的光学特性(如粗糙度、金属度)。
并行渲染:是否支持多环境 / 多相机的高效并行计算,这对大规模强化学习训练至关重要。
关键发现:
NVIDIA 系模拟器(Isaac Sim/Lab)借助 Omniverse 平台,在光线追踪和 PBR 上表现突出,适合高保真视觉仿真。
轻量级模拟器(如 PyBullet、CoppeliaSim)渲染能力较弱,主要用于功能验证而非视觉逼真度。
传感器和关节组件类型

表格聚焦模拟器对机器人关键硬件的建模能力:
传感器类型:包括 IMU、力传感器、RGB 相机、LiDAR、GPS 等的仿真支持。
关节类型:覆盖机器人常用关节(浮动、固定、铰链、球形、棱柱形)及特殊关节(如螺旋关节)的动力学建模。
关键发现:
工业级模拟器(如 Gazebo、CoppeliaSim)对传感器和关节的支持更全面,适合复杂机器人系统开发。
专用模拟器(如 SAPIEN)在特定传感器(如 LiDAR)或关节类型上存在缺失,需结合其他工具补充。
讨论和未来展望
模拟器的优势:降低实验成本、保障安全、支持变量精确控制和实验重复。
面临的挑战:模型精度不足、系统复杂度高、依赖大量数据、存在过拟合风险。
未来方向:发展世界模型,结合机器学习和人工智能,创建更全面灵活的建模框架,提升适应性和泛化能力,减少对海量数据集的依赖。
世界模型
世界模型的定义与演进
定义:世界模型是理解现实世界动态(包括物理和空间属性)的生成式 AI 模型。其灵感源于人类大脑对环境的内部建模能力,最早由 Ha 和 Schmidhuber 于 2018 年提出,通过压缩的生成模型模拟经验,推动无真实交互的强化学习。
技术演进:从早期基于循环网络的潜态建模(如 Dreamer 系列),到结合 Transformer 和扩散模型的高保真生成式模拟(如 Sora 、GAIA-2),世界模型已从 “预测工具” 发展为 “虚拟物理引擎”。
代表性架构分类
循环状态空间模型(RSSM)
1)核心:通过潜态空间(Latent Space)编码环境动态,利用循环网络(如 RNN)建模时序转移。
2)代表:Dreamer 系列,通过变分自编码器(VAE)将视觉输入压缩为潜态轨迹,实现 “想象式” 规划。例如,DreamerV3 通过统一架构在 150 + 任务中实现通用控制。
联合嵌入预测架构(JEPA)
1)核心:放弃像素级重建,以自监督方式学习抽象表征(如 V-JEPA),通过预测缺失内容的嵌入而非原始数据,提升语义理解能力。
2)优势:数据效率高,适合大规模预训练(如 100 万 + 小时视频),支持零样本规划。
Transformer-based 模型
1)核心:用注意力机制替代循环结构,处理长时序依赖与多模态输入。
2)代表:Genie 通过 Transformer 建模潜态动态,支持交互式环境的长期预测;TransDreamer 将 Transformer 引入强化学习,提升复杂场景下的规划能力。
自回归生成模型
1)核心:将世界建模视为序列预测任务,通过 Transformer 生成 tokenized 视觉观测。
2)代表:GAIA-1 用 90 亿参数 Transformer 生成多模态驾驶场景,支持文本 / 动作条件控制;VideoPoet 通过语言模型驱动视频生成。
扩散生成模型
1)核心:通过迭代去噪过程捕捉数据分布,实现高保真物理动态模拟。
2)代表:Sora 作为视频生成模型,被称为 “世界模拟器”,可预测物体物理交互;DriveDreamer 用扩散模型生成真实驾驶场景,支持动作条件下的多视图一致性。
核心角色与应用
神经模拟器(Neural Simulator)
1)功能:生成可控的高保真仿真数据,替代传统物理引擎。
2)案例:Cosmos 系列 通过扩散与自回归模型合成物理精确的 3D 视频,支持机器人训练的模拟到现实迁移;MagicDrive 通过 3D 几何控制生成街道场景,用于自动驾驶测试。
动态模型(Dynamic Model)
1)功能:学习环境动态,支持模型基强化学习(MBRL)的预测与规划。
2)案例:PlaNet 通过潜态动态模型实现像素级规划;ContextWM 用野生视频预训练世界模型,提升下游任务的样本效率。
奖励模型(Reward Model)
1)功能:通过预测轨迹的 “可预测性” 推断奖励,替代手工设计的奖励函数。
2)案例:VIPER 用视频预测模型的似然值作为奖励信号,在 DMC/Atari 等任务中实现专家级控制。
挑战与未来方向
关键挑战
1)高维与部分可观测性:处理摄像头 / LiDAR 等高维输入,以及环境状态的不完全感知。
2)因果推理缺失:多数模型停留在相关性学习,缺乏对物理因果(如 “刹车为何减速”)的理解。
3)长时序依赖:预测误差随时间累积,需更高效的记忆架构(如 Transformer 的全局注意力)。
未来趋势
1)3D 结构化建模:通过 Occupancy Networks 实现物理空间的显式表示(如 OccSora、DriveWorld)。
2)多模态融合:整合视觉、语言、触觉数据,如 EnerVerse 通过 4D 高斯 splatting 融合动作与视觉。
3)轻量化与泛化:开发硬件无关的动态编码(如 RoboTransfer),实现跨机器人平台的技能迁移。
智能体的世界模型

自动驾驶的世界模型
应用背景:传统自动驾驶架构(感知 - 预测 - 规划)在复杂场景中存在误差累积与泛化不足问题,世界模型通过模拟未来场景与物理动态,提升系统鲁棒性。
三大技术范式
神经模拟器(Neural Simulator)
GAIA-2:通过扩散模型结合结构化条件(车辆动态、道路语义),生成多摄像头一致的高清视频,支持天气 / 光照可控的场景模拟。
DriveDreamer4D:利用世界模型作为 “数据机器”,合成具有时空一致性的 4D 轨迹视频,支持新型轨迹的视图合成。
目标:生成高保真驾驶场景,用于数据增强与安全验证。
代表:
动态模型(Dynamic Model)
DriveWorld:通过 4D 预训练场景理解,结合动态记忆银行与静态场景传播,实现多摄像头视频的 4D 场景建模。
GaussianWorld:将 3D occupancy 预测转化为 4D 高斯分布建模,推断场景演化与不确定性,提升复杂交通场景的预测鲁棒性。
目标:学习环境动态,支持感知、预测与规划。
代表:
奖励模型(Reward Model)
Vista:利用世界模型的模拟能力评估轨迹质量,支持从高级意图到低级操作的动作可控性。
Drive-WM:通过多视图轨迹探索与图像级奖励评估,实现 “假设 - 推理” 式安全规划。
目标:评估驾驶行为安全性,替代手工奖励函数。
代表:
技术趋势
架构演进:从自回归(如 GAIA-1)到扩散模型(如 DriveDreamer),再到混合架构(如 Epona 结合自回归与扩散),提升生成保真度与控制精度。
3D 空间建模:转向 4D occupancy 网格(如 OccSora),编码空间结构与时间动态,支持几何一致性与深度感知。
端到端集成:如 Doe-1 将驾驶视为 “下一个 token 生成”,统一感知 - 预测 - 规划,实现基于语言模型的决策。
铰接式机器人的世界模型
应用背景:铰接式机器人(机械臂、人形机器人)需处理高维动作空间与物理交互,世界模型通过模拟物体动态与环境反馈,提升操作泛化能力。
三大技术范式
神经模拟器(Neural Simulator)
Cosmos-Predict:通过扩散模型合成 3D 视频,支持分割图 / 深度图等结构化输入,用于机器人感知训练。
DreamGen:通过四阶段流水线生成神经轨迹,结合视频世界模型合成逼真数据,实现零样本策略泛化。
目标:生成物理逼真的操作场景,支持模拟到现实迁移。
代表:
动态模型(Dynamic Model)
Dreamer 系列:通过 RSSM 学习视觉输入的潜态动态,实现基于 “想象” 的动作规划,如 DayDreamer 在物理机器人上的应用。
WMP:无需特权信息,仅通过世界模型预测训练 locomotion 策略,实现复杂地形适应性。
目标:学习机器人 - 环境动态,支持模型基强化学习。
代表:
奖励模型(Reward Model)
VIPER:在专家视频上训练自回归模型,用预测似然作为奖励,在 DMC/RLBench 等任务中实现专家级控制。
目标:通过轨迹预测似然推断奖励,减少手工设计成本。
代表:
技术趋势
触觉 - 视觉融合:如 DreMa 结合高斯 splatting 与物理仿真,显式建模接触力与物体变形,提升灵巧操作精度。
跨硬件泛化:如 RoboTransfer 通过几何一致的视频扩散,实现不同机器人平台的策略迁移,减少硬件特定训练需求。
分层任务规划:如 HWM 通过 Masked Transformer 预测动作条件下的第一人称观测,支持长时序任务的分层控制。
挑战与未来展望
共性挑战
高维状态与部分观测:处理摄像头 / 传感器的高维输入,以及环境状态的不完全感知(如遮挡、动态物体)。
因果推理缺失:多数模型依赖相关关系,缺乏对物理因果(如 “推箱子为何移动”)的理解,限制泛化能力。
实时性与计算成本:高保真生成模型(如扩散模型)的采样速度较慢,难以满足实时控制需求。
未来方向
3D 结构化世界模型:通过 Occupancy Networks 等实现物理空间的显式表示(如 Drive-OccWorld),支持几何推理与碰撞预测。
多模态基础模型:融合视觉、语言、触觉数据(如 EnerVerse-AC),实现 “指令理解 - 场景模拟 - 动作生成” 的端到端流程。
轻量化与高效推理:开发参数高效的模型架构(如 HWM 通过参数共享减少模型大小),支持边缘设备部署。
结论
具身智能技术框架
机器人能力分级(IR-L0 至 IR-L4)从机械执行到自主社交智能,涵盖自主性、任务处理等维度。如 IR-L3 可推断人类意图(如养老护理情绪识别),IR-L4 为类人认知终极目标。
物理模拟器与世界模型互补性
模拟器(如 Isaac Sim):GPU 加速高保真仿真,解决数据收集成本与安全问题。
世界模型(如扩散模型):通过内部表征实现预测规划,弥合模拟与现实差距(如 Sora 模拟物理动态)。
关键技术进展
机器人运动与操作
双足机器人:力控关节 + 强化学习,适应复杂地形(如 Cassie 穿越草地)。
双手操作:大规模演示数据 + 基础模型(如 π0),实现家庭任务泛化。
人机交互与社会嵌入
认知协作:LLM 模拟人类认知(如 L3mvn 优化导航策略)。
物理可靠性:运动规划(如 RRT*)+ 仿真数据,保障人机协作安全(如 MobileH2R 物体交接)。
未来方向与挑战
核心挑战
高维感知:处理摄像头 / LiDAR 输入,升级物理因果建模(如理解 “刹车 - 减速” 原理)。
实时性:提升扩散模型等生成效率,适配自动驾驶场景。
前沿方向
3D 结构化模型:Occupancy Networks 实现物理空间显式表示(如 OccSora 的 4D 生成)。
多模态融合:整合视觉、语言、触觉(如 EnerVerse),构建端到端智能体。
伦理安全:开发动态伦理系统,确保医疗、救援等场景合规。
技术落地与影响
工业应用:自动驾驶通过 GAIA-2 生成边缘场景,提升极端天气安全性。
服务机器人:人形机器人借助 Cosmos 模拟数据,加速家庭护理部署。
科学发现:可微物理模拟器(如 Genesis)支持新材料虚拟设计,缩短研发周期。
参考
[1] A Survey: Learning Embodied Intelligence from Physical Simulators and World Models