史上最全robot manipulation综述,多达1200篇!八家机构联合发布

点击下方卡片,关注“具身智能之心”公众号

作者丨Shuanghao Bai等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文


>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

本文作者来自:西安交通大学、香港科技大学(广州)、中国科学院自动化所、西湖大学、浙江大学、悉尼大学、北京智源人工智能研究院、北京大学。

当下,随着大语言模型(LLMs)与多模态模型(MLLMs)的突破,人工智能正以前所未有的速度从“会说”迈向“会做”。

具身智能(Embodied Intelligence)成为连接认知与行动的关键前沿:只有让智能体能够在真实环境中感知、推理并执行操作,才能迈向真正的通用智能(AGI)。而在这一过程中,机器人操作(Robot Manipulation)扮演着核心角色——它让机器人不仅“理解世界”,更能“改变世界”。

从早期的规则控制与运动规划,到如今融合强化学习、模仿学习与大模型的智能控制体系,机器人操作研究正在经历一场范式转变。

这篇由西安交大、港科广、中科院、西湖大学等机构学者撰写的综述论文——📘 Towards a Unified Understanding of Robot Manipulation: A Comprehensive Survey,使用 17 张图、15 张表格、超 1000 篇参考系统地梳理了机器人操作领域的全景图谱,涵盖硬件与控制基础、任务与数据体系、高低层控制框架,以及跨本体与跨模态的泛化研究,并提出了一个统一的理解框架,揭示机器人如何从“执行任务”走向“理解与学习任务”。

  • 论文题目:Towards a Unified Understanding of Robot Manipulation: A Comprehensive Survey

  • 工作内容:一篇全面涵盖机器人操作领域的全景视角综述

  • 论文链接:https://arxiv.org/abs/2510.10903

    仓库链接:https://github.com/BaiShuanghao/Awesome-Robotics-Manipulation

论文摘要

近年来,随着计算机视觉、自然语言处理以及大规模多模态模型的迅速发展,具身智能(Embodied Intelligence)取得了显著进展。在众多关键挑战中,机器人操作(Robot Manipulation)作为具身智能的核心问题之一,因其对感知、规划与控制的无缝整合要求而显得尤为复杂与基础——它决定了智能体能否在多样且非结构化的环境中实现真实交互。

本综述系统梳理了机器人操作领域的整体格局,涵盖基础背景、按任务组织的基准与数据集、操作任务,以及现有方法的统一分类体系。我们在经典的“高层规划—低层控制”框架基础上进行了扩展:高层规划不仅包括任务规划,还进一步纳入了语言、代码、运动、可供性(affordance)与三维表示等方面;而在低层学习控制部分,我们提出了一种基于训练范式的全新分类方法,将其细分为输入建模(Input Modeling)、潜表征学习(Latent Learning)与策略学习(Policy Learning)三个核心组成部分。

此外,我们首次系统性地提出了关于关键瓶颈问题的分类框架,重点分析了数据采集、利用与泛化等核心挑战,并对机器人操作在实际场景中的应用进行了全面回顾。与以往综述相比,本工作不仅在内容上覆盖更广、层次更深,也在结构上提供了更清晰的知识脉络:既为初学者提供了快速入门的路线图,也为领域研究者提供了系统化的参考框架。

1. 主要贡献:

  • 系统性与全面性综述:本文对机器人操作领域进行了最系统、最全面的梳理,覆盖硬件基础、控制范式、任务与基准、学习方法、泛化问题及实际应用,为研究者提供了完整的知识结构与实践视角。

  • 统一的高低层控制框架:我们扩展了传统的“高层规划—低层控制”划分:

高层规划不仅涵盖任务规划,还包括语言、代码、运动、可供性与三维表示;低层学习控制则提出了一种基于训练范式的新分类,包含学习策略、输入建模、潜表征学习和策略学习四个维度,构建了理解操作方法的统一框架。

  • 瓶颈分类框架:提出机器人操作研究中的两大核心瓶颈——数据采集与利用、泛化,并总结了相应的研究进展与解决思路。

研究内容与结构一览

2. 机器人核心技术回顾

  • 机器人硬件沿革:从机械手、机械臂到移动机器人平台

  • 控制范式演进:从基于经典算法(如RRT、MPC)到基于学习的方法(如强化学习/模仿学习)

  • 模型与评估体系:机器人模型的分类方式及其验证流程

3. 仿真器、基准、数据集

  • 抓取数据集:包含平面抓取与六自由度抓取标注的数据集。

  • 单 embodiment 仿真器与基准:基于单一机器人硬件平台构建的仿真环境与测试标准。

  • 跨 embodiment 仿真器与基准:支持多种异构机器人硬件平台的仿真环境与测试标准。

  • 轨迹数据集:记录智能体与环境交互时产生的、按时间顺序排列的状态、动作与感知观测数据。

  • 具身问答与功能可供性数据集:此类数据集的任务均要求模型具备视觉-语义理解与空间推理能力。

4. 操作任务

任务类型

核心定义

抓取

本文狭义定义为机器人生成抓取位姿。

基础操作

单臂或双臂在桌面场景执行的简单任务(如拾放、分拣)。

灵巧操作

通过多指手实现精确、协同的物体控制。

软体机器人操作

利用柔性材料,适用于人机协作与不确定环境。

可变形物体操作

感知与控制因受力而形变的非刚性物体。

移动操作

结合导航与操作能力,在移动中交互。

四足机器人操作

融合四足敏捷移动与物体交互的新范式。

人形机器人操作

类人形态机器人在人类环境中执行交互任务。

本章概述了各类复杂操作任务的技术脉络,包括从非学习方法到学习方法(RL, IL, VLA等)的演进,并指明了各任务的关键难点。

5. 高层规划期和低层控制器

由于“基础操作”相关研究体量庞大,在后续两章中进行了完整呈现,核心贡献在于一个统一的“高层规划—低层控制”理解框架。该框架虽基于基础操作任务构建,但具备良好的通用性,可灵活扩展至其他操作任务。

扩展的高层规划定义

我们将高层规划从传统的任务调度扩展至语言、代码、运动、可供性(affordance)和3D表示,揭示了其在具身智能中的语义决策作用。

全新的低层学习控制分类法

首次提出基于训练范式的三层结构的分类法:

  • 输入建模(Input Modeling):输入什么、如何处理;

  • 潜表征学习(Latent Learning):如何构建可迁移表示;

  • 策略学习(Policy Learning):如何生成稳定精准的动作。

这一框架为低层控制研究提供了新的系统化视角。

6. 机器人操作两大瓶颈

本文系统总结了机器人操作领域面临的两大核心瓶颈:数据采集与利用,以及系统泛化能力,并分别梳理了相应的研究进展。

数据采集与利用方面,本文从数据来源与处理方法两个维度进行归纳。数据采集途径主要包括:

  • 人类遥操作与示教

  • 人在回路增强

  • 合成与自动数据生成

  • 基于众包的数据收集

在数据利用方面,重点总结了以下关键方法:

  • 数据扩展

  • 选择与重加权

  • 数据检索

  • 数据增强技术

在泛化能力方面,本文将其归纳为三类关键挑战:

  • 环境泛化

  • 任务泛化

  • 跨具身泛化

文中详细分析了针对上述瓶颈的现有解决方案,为理解机器人操作系统的瓶颈突破提供了系统化的研究视角。

7. 应用

本文系统梳理了机器人技术在多个真实场景中的代表性应用,涵盖家庭服务、工业制造、农业生产、科学实验、艺术创作与体育运动等领域。

8. 未来展望

总结了四个值得重点关注的未来方向:

  • 构建真正的“机器人脑”,实现通用认知与控制;

  • 打破数据瓶颈,实现可扩展的数据生成与利用;

  • 强化多模态感知,提升与复杂物体的交互能力;

  • 确保人机共存安全,推动机器人走向真实世界。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值