点击下方卡片,关注“具身智能之心”公众号
作者丨Shuanghao Bai等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
本文作者来自:西安交通大学、香港科技大学(广州)、中国科学院自动化所、西湖大学、浙江大学、悉尼大学、北京智源人工智能研究院、北京大学。
当下,随着大语言模型(LLMs)与多模态模型(MLLMs)的突破,人工智能正以前所未有的速度从“会说”迈向“会做”。
具身智能(Embodied Intelligence)成为连接认知与行动的关键前沿:只有让智能体能够在真实环境中感知、推理并执行操作,才能迈向真正的通用智能(AGI)。而在这一过程中,机器人操作(Robot Manipulation)扮演着核心角色——它让机器人不仅“理解世界”,更能“改变世界”。
从早期的规则控制与运动规划,到如今融合强化学习、模仿学习与大模型的智能控制体系,机器人操作研究正在经历一场范式转变。
这篇由西安交大、港科广、中科院、西湖大学等机构学者撰写的综述论文——📘 Towards a Unified Understanding of Robot Manipulation: A Comprehensive Survey,使用 17 张图、15 张表格、超 1000 篇参考系统地梳理了机器人操作领域的全景图谱,涵盖硬件与控制基础、任务与数据体系、高低层控制框架,以及跨本体与跨模态的泛化研究,并提出了一个统一的理解框架,揭示机器人如何从“执行任务”走向“理解与学习任务”。
论文题目:Towards a Unified Understanding of Robot Manipulation: A Comprehensive Survey
工作内容:一篇全面涵盖机器人操作领域的全景视角综述
论文链接:https://arxiv.org/abs/2510.10903
仓库链接:https://github.com/BaiShuanghao/Awesome-Robotics-Manipulation
论文摘要
近年来,随着计算机视觉、自然语言处理以及大规模多模态模型的迅速发展,具身智能(Embodied Intelligence)取得了显著进展。在众多关键挑战中,机器人操作(Robot Manipulation)作为具身智能的核心问题之一,因其对感知、规划与控制的无缝整合要求而显得尤为复杂与基础——它决定了智能体能否在多样且非结构化的环境中实现真实交互。
本综述系统梳理了机器人操作领域的整体格局,涵盖基础背景、按任务组织的基准与数据集、操作任务,以及现有方法的统一分类体系。我们在经典的“高层规划—低层控制”框架基础上进行了扩展:高层规划不仅包括任务规划,还进一步纳入了语言、代码、运动、可供性(affordance)与三维表示等方面;而在低层学习控制部分,我们提出了一种基于训练范式的全新分类方法,将其细分为输入建模(Input Modeling)、潜表征学习(Latent Learning)与策略学习(Policy Learning)三个核心组成部分。
此外,我们首次系统性地提出了关于关键瓶颈问题的分类框架,重点分析了数据采集、利用与泛化等核心挑战,并对机器人操作在实际场景中的应用进行了全面回顾。与以往综述相比,本工作不仅在内容上覆盖更广、层次更深,也在结构上提供了更清晰的知识脉络:既为初学者提供了快速入门的路线图,也为领域研究者提供了系统化的参考框架。
1. 主要贡献:
系统性与全面性综述:本文对机器人操作领域进行了最系统、最全面的梳理,覆盖硬件基础、控制范式、任务与基准、学习方法、泛化问题及实际应用,为研究者提供了完整的知识结构与实践视角。
统一的高低层控制框架:我们扩展了传统的“高层规划—低层控制”划分:
高层规划不仅涵盖任务规划,还包括语言、代码、运动、可供性与三维表示;低层学习控制则提出了一种基于训练范式的新分类,包含学习策略、输入建模、潜表征学习和策略学习四个维度,构建了理解操作方法的统一框架。
瓶颈分类框架:提出机器人操作研究中的两大核心瓶颈——数据采集与利用、泛化,并总结了相应的研究进展与解决思路。
2. 机器人核心技术回顾
机器人硬件沿革:从机械手、机械臂到移动机器人平台
控制范式演进:从基于经典算法(如RRT、MPC)到基于学习的方法(如强化学习/模仿学习)
模型与评估体系:机器人模型的分类方式及其验证流程
3. 仿真器、基准、数据集
抓取数据集:包含平面抓取与六自由度抓取标注的数据集。
单 embodiment 仿真器与基准:基于单一机器人硬件平台构建的仿真环境与测试标准。
跨 embodiment 仿真器与基准:支持多种异构机器人硬件平台的仿真环境与测试标准。
轨迹数据集:记录智能体与环境交互时产生的、按时间顺序排列的状态、动作与感知观测数据。
具身问答与功能可供性数据集:此类数据集的任务均要求模型具备视觉-语义理解与空间推理能力。
4. 操作任务
任务类型 | 核心定义 |
|---|---|
抓取 | 本文狭义定义为机器人生成抓取位姿。 |
基础操作 | 单臂或双臂在桌面场景执行的简单任务(如拾放、分拣)。 |
灵巧操作 | 通过多指手实现精确、协同的物体控制。 |
软体机器人操作 | 利用柔性材料,适用于人机协作与不确定环境。 |
可变形物体操作 | 感知与控制因受力而形变的非刚性物体。 |
移动操作 | 结合导航与操作能力,在移动中交互。 |
四足机器人操作 | 融合四足敏捷移动与物体交互的新范式。 |
人形机器人操作 | 类人形态机器人在人类环境中执行交互任务。 |
本章概述了各类复杂操作任务的技术脉络,包括从非学习方法到学习方法(RL, IL, VLA等)的演进,并指明了各任务的关键难点。
5. 高层规划期和低层控制器
由于“基础操作”相关研究体量庞大,在后续两章中进行了完整呈现,核心贡献在于一个统一的“高层规划—低层控制”理解框架。该框架虽基于基础操作任务构建,但具备良好的通用性,可灵活扩展至其他操作任务。
扩展的高层规划定义
我们将高层规划从传统的任务调度扩展至语言、代码、运动、可供性(affordance)和3D表示,揭示了其在具身智能中的语义决策作用。
全新的低层学习控制分类法
首次提出基于训练范式的三层结构的分类法:
输入建模(Input Modeling):输入什么、如何处理;
潜表征学习(Latent Learning):如何构建可迁移表示;
策略学习(Policy Learning):如何生成稳定精准的动作。
这一框架为低层控制研究提供了新的系统化视角。
6. 机器人操作两大瓶颈
本文系统总结了机器人操作领域面临的两大核心瓶颈:数据采集与利用,以及系统泛化能力,并分别梳理了相应的研究进展。
在数据采集与利用方面,本文从数据来源与处理方法两个维度进行归纳。数据采集途径主要包括:
人类遥操作与示教
人在回路增强
合成与自动数据生成
基于众包的数据收集
在数据利用方面,重点总结了以下关键方法:
数据扩展
选择与重加权
数据检索
数据增强技术
在泛化能力方面,本文将其归纳为三类关键挑战:
环境泛化
任务泛化
跨具身泛化
文中详细分析了针对上述瓶颈的现有解决方案,为理解机器人操作系统的瓶颈突破提供了系统化的研究视角。
7. 应用
本文系统梳理了机器人技术在多个真实场景中的代表性应用,涵盖家庭服务、工业制造、农业生产、科学实验、艺术创作与体育运动等领域。
8. 未来展望
总结了四个值得重点关注的未来方向:
构建真正的“机器人脑”,实现通用认知与控制;
打破数据瓶颈,实现可扩展的数据生成与利用;
强化多模态感知,提升与复杂物体的交互能力;
确保人机共存安全,推动机器人走向真实世界。

2087

被折叠的 条评论
为什么被折叠?



