【论文阅读|具身智能】Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

文章链接:https://arxiv.org/abs/2407.06886

Abstract

具身智能(Embodied AI)对于实现人工通用智能(Artificial General Intelligence,AGI)至关重要,也是连接网络空间和物理世界的各种应用程序的基础。近年来,多模态大模型(MLMs)和世界模型(WMs)的出现因其显著的感知、交互和推理能力而引起了广泛的关注,使其成为具身智能体的大脑中一个很有前途的架构。然而,在mlm的时代,目前还没有对具身智能的全面调查。在本次调查中,我们对具身智能的最新进展进行了全面的探索。我们的分析首先通过了具身机器人(embodied robots)和模拟器(simulators)的代表性工作的前沿,以充分了解研究的重点及其局限性。然后,我们分析了四个主要的研究目标: 1)具身感知(embodied perception)、2)具身交互(embodied interaction)、3)具身智能体(embodied agent)、4)仿真到现实的迁移(sim-to-real adaptation),涵盖了最先进的方法、基本范式和全面的数据集。此外,我们还探讨了虚拟和真实体现代理中mlm的复杂性,强调了它们在促进动态数字和物理环境中的交互方面的意义。最后,我们总结了具体化人工智能所面临的挑战和局限性,并讨论了其未来潜在的发展方向。我们希望本次调查能为研究界提供基础参考,并激发持续的创新。相关的项目可以在https://github.com/HCPLab-SYSU/Embodied AI Paper List中找到。

I. INTRODUCTION

具身智能最初的提出是在1950年的具身图灵测试,旨在确定代理是否可以显示智能。它不仅局限于在虚拟环境中解决抽象问题,也能够引导出物理世界的复杂性和不可预测性。网络空间中的智能体(agent)通常被称为无实体人工智能,而物理空间中的智能体则被称为具身人工智能(表1)。多模态大型模型(MLMs)的最新进展已经为具身模型注入了强大的感知、交互和规划能力,以开发通用的具身智能体和机器人,主动与虚拟和物理环境交互。因此,实体智能体被广泛认为是mlm的最佳载体。最近的代表性体现模型是RT-2和RT-H。然而,对于当前的mlm,长期记忆、理解复杂意图和分解复杂任务的能力是有限的。

为了实现人工通用智能(AGI),开发具身人工智能是一条基本途径。与像ChatGPT [5]这样的对话代理不同,具身智能认为,真正的AGI可以通过控制物理实施例以及与模拟环境和物理环境[6]-[8]交互来实现。当我们站在agi驱动的创新的前沿时,深入研究具体化的人工智能领域,解开它们的复杂性,评估它们当前的发展阶段,并考虑它们在未来可能遵循的潜在轨迹是至关重要的。如今,具身人工智能包含了跨越计算机视觉(CV)、自然语言处理(NLP)和机器人技术的各种关键技术,其中最具代表性的是具身感知、具身交互、具身代理和模拟到真实的机器人控制。因此,在追求AGI的过程中,必须通过全面的调查来捕捉体现人工智能的进化景观。

具身智能体是体现具身智能最突出的基础。对于具体化任务,具身智能体必须充分理解语言指令中的人类意图,积极探索周围环境,全面感知虚拟和物理环境中的多模态元素,并对复杂任务[12]、[13]执行适当的动作,如图2所示。与传统的深度强化学习方法相比,多模态模型的快速发展在复杂环境中表现出优越的多功能性、灵活性和通用性。来自最先进的视觉编码器[14],[15]的预先训练的视觉表示提供了对对象类别、姿态和几何的精确估计,这使具身模型彻底感知复杂和动态的环境。强大的大语言模型(llm)使机器人更好地理解来自人类的语言指令。有前景的mlm为调整具身机器人的视觉和语言表示提供了可行的方法。世界模型[16]、[17]表现出显著的模拟能力和对物理定律的良好理解能力,这使得具身模型能够全面地理解物理环境和真实环境。这些创新使具身智能体能够全面感知复杂的环境,自然地与人类互动,并可靠地执行任务。

具身智能的发展表现出了快速的进步,引起了研究界的广泛关注(图1),被认为是实现AGI最可行的途径。谷歌学者报告了大量具身智能出版物,仅在2023年就发表了大约10,700篇论文。这意味着平均每天有29篇论文或每小时超过一篇论文被发表。尽管人们对从mlm中获得强大的感知和推理能力非常感兴趣,但研究界缺乏一个全面的调查来帮助整理现有的具身智能研究、面临的挑战以及未来的研究方向。在mlm时代,我们的目标是通过对跨网络空间到物理世界的具身智能进行系统调查来填补这一空白。我们从不同的角度进行调查,包括具身机器人、模拟器、四种具有代表性的具身任务(视觉主动感知(visual active perception)、具身交互(embodied interaction)、多模态智能体(multi-modal agents)和模拟到真实机器人控制(sim-to-real robotic controlling)),以及未来的研究方向。我们相信,这项调查将为我们所取得的成就提供一个清晰的大局,我们可以进一步实现这一新兴但非常具有前瞻性的研究方向。

与之前的作品的不同之处在于:虽然有几篇[6],[18]-[20]的调查论文,但大多数都是过时的,因为它们是在2023年左右开始的mlm时代之前发表的。据我们所知,在2023年之后,只有一篇调查论文[8],它只关注视觉-语言-动作体现的人工智能模型。然而,mlm、wm和体现代理并没有被充分考虑。此外,具体化机器人和模拟器的最新发展也被忽视了。为了解决在这一快速发展的领域缺乏综合调查论文的问题,我们提出了这个综合调查,涵盖了有代表性的具身机器人、模拟器和四个主要的研究任务:具身感知、具身交互、具身代理和模拟到真实的机器人控制。

总之,这项工作的主要贡献有三方面。首先,它对具身人工智能进行了系统的回顾,包括具身机器人、模拟器和四个主要的研究任务:视觉主动感知、具身交互、具身代理和模拟到真实的机器人控制。据我们所知,这是第一次从基于mlm和wm的网络和物理空间排列的角度对具身智能进行全面的调查,提供了一个广泛的概述和对现有研究的全面总结和分类。其次,它检查了具身人工智能的最新进展,为跨多个模拟器和数据集的当前工作提供了全面的基准测试和讨论。第三,它确定了具身人工智能AGI未来研究的几个研究挑战和潜在方向。

本调查的其余部分组织如下。第2节介绍了各种实体机器人。第3节描述了一般的和真实的场景体现的模拟器。第4节介绍了具身感知,包括主动视觉感知、三维视觉接地、视觉语言导航和非视觉感知。第5节介绍了具身交互。第6节介绍了具身智能体,包括具身多模态基础模型和具身任务规划。第7节介绍了模拟到现实的适应,包括具身世界模型、数据收集和训练,以及具身控制。在第8节中,我们讨论了很有前途的研究方向。

II. EMBODIED ROBOTS

具身智能体积极地与物理环境交互,并⼴泛地落地了应用,包括机器人、智能电器、智能眼镜、自动驾驶汽车等。其中,机器人是最突出的实施例之一。根据应用程序的不同,机器人被设计为各种形式,以利用其硬件特性来完成特定的任务,如图4所示。

A. Fixed-base Robots

固定底座机器人,如图4 (a)所示,由于其紧凑性和高精度的操作,被广泛应用于实验室自动化、教育培训和工业制造中。这些机器人具有坚固的基础和结构,确保了在操作过程中的稳定性和高精度。配备了高精度传感器和执行器,实现了微米级的精度,使它们适合于需要高精度和重复性[21]的任务。此外,固定基地机器人是高度可编程的,允许用户适应各种任务场景,如弗兰卡(Franka
Emika panda)[22],Kukaiiwa(KUKA)[23],和Sawyer(Rethink Robotics)[24]。然而,固定基地的机器人也有一定的缺点。它们的固定基地设计限制了它们的操作范围和灵活性,阻止它们在大面积区域内移动或调整位置,并导致它们需要与人类和其他机器人合作完成任务。[21].

B. Wheeled Robots and Tracked Robots

对于移动机器人,它们可以面对更复杂和多样化的应用场景。如图4所示,轮式机器人以其高效的移动性而闻名,广泛应用于物流、仓储和安全检查。轮式机器人的优点包括结构简单、成本相对较低、能源效率高以及在平面[21]上的快速移动能力。这些机器人通常配备了高精度传感器,如激光雷达和照相机,能够实现自主导航和环境感知,使它们在自动化仓库管理和检查任务中非常有效,例如,Kiva机器人(Kiva systems)[25]和豺狼机器人(Clearpath Robotics)[26]。然而,轮式机器人在复杂的地形和恶劣的环境中,移动性有限,特别是在不平坦的地面上。此外,它们的负载能力和机动性也受到了一定程度的限制。

不同的是,被跟踪机器人具有强大的越野能力和机动性,显示出在农业、建筑和灾难恢复方面的潜力,如图4 (c)所示轨道系统提供了一个更大的地面接触面积,分配了机器人的重量,减少了在泥浆和沙子等柔软地形中下沉的风险。此外,跟踪机器人配备了强大的动力和悬挂系统,以在复杂地形上保持稳定性和牵引力。因此,被跟踪的机器人也被用于军事等敏感地区。iRobot的PackBot是一种多功能的军事跟踪机器人,能够执行诸如侦察、爆炸物处理和救援任务[28]等任务。然而,由于轨道系统的高摩擦,跟踪机器人往往遭受能源效率低。此外,它们在平面上的移动速度,以及灵活性和机动性比轮式机器人慢。

C. Quadruped Robots

四足机器人,以其稳定性和适应性而闻名,非常适合复杂的地形探索、救援任务和军事应用。受四足动物的启发,这些机器人可以在不均匀的表面上保持平衡和流动性,如图4 (d).所示多关节设计允许他们模仿生物运动,实现复杂的步态和姿势调整。高可调性使机器人能够自动适应他们的姿态,以适应变化的地形,提高机动性和稳定性。传感系统,如激光雷达和照相机,提供了环境意识,允许机器人自动导航和避开障碍物[29]。几种类型的四足机器人被广泛使用:Unitree Robotics,Boston Dynamics Spot和 ANYmal C。Unitree Robotics对A1和Go1的联合以其成本效益和灵活性而闻名。A1 [30]和Go1 [31]具有很强的机动性和智能避障能力,适用于各种应用。Boston Dynamics Spot以其优越的稳定性和操作灵活性而闻名,这通常用于工业检查和救援任务。它具有强大的承载能力和适应性,能够在恶劣环境中执行复杂的任务。Anybot公司的ANYmal C具有模块化设计和高耐久性,广泛应用于工业检验和维护。ANYmal C配备了自主导航和远程操作能力,适合长期的户外任务,甚至极端的月球任务[33]。四足动物机器人复杂的设计和高昂的制造成本导致了大量的初始投资,限制了它们在成本敏感领域的使用。此外,它们在复杂环境中的电池续航能力有限,需要频繁充电或更换电池来实现长时间运行[34]。

D. Humanoid Robots

类人机器人以其类人的形式而闻名,并在服务行业、医疗保健和协作环境等领域越来越流行。这些机器人可以模仿人类的运动和行为模式,提供个性化的服务和支持。他们灵巧的手设计使他们能够完成复杂的任务,区别于其他类型的机器人,如图4 (e)所示。这些手通常具有多个自由度和高精度的传感器,使它们能够模拟人类手的抓握和操作能力,这在医疗外科手术和精密制造[35]等领域尤为重要。在目前的类人机器人中,Atlas(Boston Dynamics)以其非凡的移动性和稳定性而闻名。Atlas可以执行复杂的动态动作,如运行、跳跃和滚动,展示了类人机器人在高度动态环境[36]中的潜力。HRP系列(AIST)被用于各种研究和工业应用,其设计侧重于高稳定性和灵活性,使其在复杂的环境中有效,特别是对于与人类[37]的协作任务。ASIMO(Honda,本田)是最著名的类人机器人之一,它可以行走、跑步、爬楼梯、识别人脸和手势,使其适合于[38]的接待和指导服务。此外,一个小型社交机器人Pepper(Softbank Robotics)可以识别情绪并参与自然语言交流,并广泛应用于客户服务和教育设置[39]。

然而,由于其复杂的控制系统,类人机器人在复杂环境中维持操作稳定性和可靠性方面面临着挑战。这些挑战包括强大的两足行走控制和灵巧的手抓握[40]。此外,传统的基于液压系统的类人机器人,以其结构庞大和维护成本高为特点,正越来越多地被电机驱动系统所取代。最近,特斯拉和联合蕾机器人公司推出了基于运动系统的类人形机器人。随着llm的集成,类人机器人有望智能处理各种复杂任务,填补制造业、医疗保健和服务业的劳动力缺口,从而提高效率和安全性。

E. Biomimetic Robots

不同的是,仿生机器人通过模拟自然生物体的有效运动和功能,在复杂和动态的环境中执行任务。通过模拟生物实体的形式和运动机制,这些机器人在医疗保健、环境监测和生物研究[21]等领域显示出了巨大的潜力。通常,它们利用灵活的材料和结构来实现逼真、敏捷的动作,并最小化对环境的影响。重要的是,仿生设计可以通过模拟生物生物体的有效运动机制来显著提高机器人的能源效率,使其在能源消耗[42]、[43]方面更经济。这些仿生机器人包括鱼类机器人[44]、[45]、昆虫类机器人[46]、[47]和软体机器人[48],如图4 (f)所示。然而,仿生机器人面临着一些挑战。首先,它们的设计和制造过程复杂且昂贵,限制了大规模的生产和广泛的应用。其次,由于它们使用了灵活的材料和复杂的运动机制,仿生机器人在极端环境下的耐久性和可靠性受到了限制。

III. EMBODIED SIMULATORS

具身模拟器对具身人工智能至关重要,因为它们提供了成本效益高的实验方式,通过模拟潜在危险场景确保安全性,具备在多样化环境中测试的可扩展性,以及快速原型开发的能力。此外,它们为更广泛的研究群体提供了可访问性,能够创建受控环境进行精确研究,生成用于训练和评估的数据,并提供用于算法比较的标准化基准。为了让智能体能够与环境交互,有必要构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其交互关系。

本节将从两个方面介绍常用的仿真平台:基于底层模拟的通用模拟器和基于真实场景的模拟器。

A. General Simulator

现实环境中存在的物理相互作用和动态变化是不可替代的。然而,在物理世界中部署具体化的模型通常会带来很高的成本,并面临着许多挑战。通用模拟器提供了一个紧密模拟物理世界的虚拟环境,允许算法开发和模型训练,这提供了显著的成本、时间和安全优势。

Isaac Sim [49]是一个机器人和人工智能研究的先进模拟平台。它具有高保真的物理模拟、实时射线追踪、广泛的机器人模型库和深度学习支持。其应用场景包括自动驾驶、工业自动化和人类机器人交互。Gazebo[60]是一个用于机器人技术研究的开源模拟器。它有广泛的机器人库,并与ROS紧密集成。它支持各种传感器的仿真,并提供了许多预先构建的机器人模型和环境。它主要用于机器人的导航和控制以及多机器人系统。PyBullet[52]是Bullet物理引擎的Python接口。它易于使用,并具有不同的传感器仿真和深度学习集成。PyBullet支持实时物理模拟,包括刚体动力学、碰撞检测和约束求解。表II介绍了10个通用模拟器的关键特性和主要应用场景。它们在具身人工智能领域都有独特的优势。研究者可以根据自己具体的研究需求,选择最合适的模拟器,从而加速具身人工智能技术的开发和应用。图5显示了一般模拟器的可视化效果。

B. Real-Scene Based Simulators

在家庭活动中实现普遍的具身主体一直是具身人工智能研究领域的主要焦点。这些具身主体需要深入了解人类的日常生活,并在室内环境中执行导航和交互等复杂的具身任务。为了满足这些复杂任务的需求,模拟环境需要尽可能接近真实世界,这就对模拟器的复杂性和真实性提出了很高的要求。这导致了基于真实世界环境的模拟器的创建。这些模拟器主要从现实世界中收集数据,创建逼真的3D资产,并使用UE5和Unity等3D游戏引擎构建场景。丰富而真实的场景使基于现实世界环境的模拟器成为家庭活动中具身人工智能研究的首选。

AI2-THOR [61]是一款基于Unity3D的室内实体场景模拟器,由艾伦人工智能研究所领导。作为一个在现实世界中构建的高保真模拟器,AI2-THOR具有丰富的交互式场景对象和分配给它们的物理属性(如打开/关闭,甚至冷/热)。AI2-THOR由iTHOR和RoboTHOR两部分组成。它包含120个房间,分为厨房、卧室、浴室和客厅,有超过2000个独特的交互对象,并支持多代理模拟;RoboTHOR包含89个模块化公寓,600个+对象,其独特之处在于这些公寓对应于现实世界中的真实场景。到目前为止,已经有基于AI2-THOR出版了100多部作品。

Matterport 3D [62]是在R2R [63]中提出的,它更常用于作为一个大规模的2D-3D可视化数据集。Matterport3D数据集包括90个建筑室内场景,包括10800张全景图和194400张RGB-D图像,并提供表面重建、摄像机姿态、2D和三维语义分割注释。Matterport3D将3D场景转换为离散的“视点”,在3D场景中,体现的代理在相邻的“视点”之间移动。在每个“视点”上,具体化代理可以获得以“视点”为中心的1280x1024全景图像(18×RGB-D)。Matterport3D是最重要的具体化导航基准测试之一。

Virtualhome[64]是Puig等人推出的家庭活动体现人工智能模拟器。虚拟家园的特别之处在于它用环境图表示的环境。环境图表示场景中的对象及其相关关系。用户还可以自定义和修改环境图形,以实现场景对象的自定义配置。这种环境图为具体化代理理解环境提供了一种新的途径。与AI2-THOR类似,Virtualhome也提供了大量的交互对象,具体化代理可以与它们交互并改变其状态。虚拟家园的另一个特性是它的简单易用的API。具体化代理的操作被简化为“操作+对象”的格式。这一特点使虚拟家居广泛应用于实体规划、指令分解等领域的研究。

Habitat[65]是由Meta推出的一个面向大规模人机交互的开源模拟器。基于Bullet物理引擎,实现了高性能、高速、并行的三维仿真,为具体化代理的强化学习提供了丰富的界面。Habitat具有极高的开放性。研究人员可以在生境中导入和创建三维场景,或者利用生境平台上丰富的开放资源进行扩展。Habitat有许多可定制的传感器,并支持多智能体模拟。来自开放资源或定制的多个具体化代理(例如,人类和机器人狗)可以在模拟器中合作,自由移动,并与场景执行简单的交互。因此,Habitat正受到越来越多的关注。

与其他更关注场景的模拟器不同,SAPIEN [66]更关注模拟物体之间的交互。SAPIEN基于PhysX物理引擎,提供了细粒度的具体化控制,可以通过ROS接口实现基于力和扭矩的联合控制。SAPIEN基于partnet移

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值