史上最全robot manipulation综述，多达1200篇！八家机构联合发布

转载于 2025-10-15 07:31:22 发布 · 113 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247682723&idx=4&sn=3174475a51df4d32c632b23f9f63b463&chksm=cff0d245fae7ed2c9199052f4a09ee63255a54a0b4113aabc65d800b23d8f50ea8d1ac203765&scene=126&sessionid=0

点击下方卡片，关注“具身智能之心”公众号

作者丨Shuanghao Bai等

编辑丨具身智能之心

本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

本文作者来自：西安交通大学、香港科技大学（广州）、中国科学院自动化所、西湖大学、浙江大学、悉尼大学、北京智源人工智能研究院、北京大学。

当下，随着大语言模型（LLMs）与多模态模型（MLLMs）的突破，人工智能正以前所未有的速度从“会说”迈向“会做”。

具身智能（Embodied Intelligence）成为连接认知与行动的关键前沿：只有让智能体能够在真实环境中感知、推理并执行操作，才能迈向真正的通用智能（AGI）。而在这一过程中，机器人操作（Robot Manipulation）扮演着核心角色——它让机器人不仅“理解世界”，更能“改变世界”。

从早期的规则控制与运动规划，到如今融合强化学习、模仿学习与大模型的智能控制体系，机器人操作研究正在经历一场范式转变。

这篇由西安交大、港科广、中科院、西湖大学等机构学者撰写的综述论文——📘 Towards a Unified Understanding of Robot Manipulation: A Comprehensive Survey，使用 17 张图、15 张表格、超 1000 篇参考系统地梳理了机器人操作领域的全景图谱，涵盖硬件与控制基础、任务与数据体系、高低层控制框架，以及跨本体与跨模态的泛化研究，并提出了一个统一的理解框架，揭示机器人如何从“执行任务”走向“理解与学习任务”。

论文题目：Towards a Unified Understanding of Robot Manipulation: A Comprehensive Survey
工作内容：一篇全面涵盖机器人操作领域的全景视角综述
论文链接：https://arxiv.org/abs/2510.10903
仓库链接：https://github.com/BaiShuanghao/Awesome-Robotics-Manipulation

论文摘要

近年来，随着计算机视觉、自然语言处理以及大规模多模态模型的迅速发展，具身智能（Embodied Intelligence）取得了显著进展。在众多关键挑战中，机器人操作（Robot Manipulation）作为具身智能的核心问题之一，因其对感知、规划与控制的无缝整合要求而显得尤为复杂与基础——它决定了智能体能否在多样且非结构化的环境中实现真实交互。

本综述系统梳理了机器人操作领域的整体格局，涵盖基础背景、按任务组织的基准与数据集、操作任务，以及现有方法的统一分类体系。我们在经典的“高层规划—低层控制”框架基础上进行了扩展：高层规划不仅包括任务规划，还进一步纳入了语言、代码、运动、可供性（affordance）与三维表示等方面；而在低层学习控制部分，我们提出了一种基于训练范式的全新分类方法，将其细分为输入建模（Input Modeling）、潜表征学习（Latent Learning）与策略学习（Policy Learning）三个核心组成部分。

此外，我们首次系统性地提出了关于关键瓶颈问题的分类框架，重点分析了数据采集、利用与泛化等核心挑战，并对机器人操作在实际场景中的应用进行了全面回顾。与以往综述相比，本工作不仅在内容上覆盖更广、层次更深，也在结构上提供了更清晰的知识脉络：既为初学者提供了快速入门的路线图，也为领域研究者提供了系统化的参考框架。

1. 主要贡献：

系统性与全面性综述：本文对机器人操作领域进行了最系统、最全面的梳理，覆盖硬件基础、控制范式、任务与基准、学习方法、泛化问题及实际应用，为研究者提供了完整的知识结构与实践视角。
统一的高低层控制框架：我们扩展了传统的“高层规划—低层控制”划分：

高层规划不仅涵盖任务规划，还包括语言、代码、运动、可供性与三维表示；低层学习控制则提出了一种基于训练范式的新分类，包含学习策略、输入建模、潜表征学习和策略学习四个维度，构建了理解操作方法的统一框架。

瓶颈分类框架：提出机器人操作研究中的两大核心瓶颈——数据采集与利用、泛化，并总结了相应的研究进展与解决思路。

研究内容与结构一览

2. 机器人核心技术回顾

机器人硬件沿革：从机械手、机械臂到移动机器人平台
控制范式演进：从基于经典算法（如RRT、MPC）到基于学习的方法（如强化学习/模仿学习）
模型与评估体系：机器人模型的分类方式及其验证流程

3. 仿真器、基准、数据集

抓取数据集：包含平面抓取与六自由度抓取标注的数据集。
单 embodiment 仿真器与基准：基于单一机器人硬件平台构建的仿真环境与测试标准。
跨 embodiment 仿真器与基准：支持多种异构机器人硬件平台的仿真环境与测试标准。
轨迹数据集：记录智能体与环境交互时产生的、按时间顺序排列的状态、动作与感知观测数据。
具身问答与功能可供性数据集：此类数据集的任务均要求模型具备视觉-语义理解与空间推理能力。

4. 操作任务

任务类型	核心定义
抓取	本文狭义定义为机器人生成抓取位姿。
基础操作	单臂或双臂在桌面场景执行的简单任务（如拾放、分拣）。
灵巧操作	通过多指手实现精确、协同的物体控制。
软体机器人操作	利用柔性材料，适用于人机协作与不确定环境。
可变形物体操作	感知与控制因受力而形变的非刚性物体。
移动操作	结合导航与操作能力，在移动中交互。
四足机器人操作	融合四足敏捷移动与物体交互的新范式。
人形机器人操作	类人形态机器人在人类环境中执行交互任务。