1 具身智能
1.0 为什么要研发具身智能
- 全球劳动力短缺,我国人口红利退去,导致用工成本变高;
- 持续的重复性/高体力的工作导致职业倦怠;
- 高危职业减少人类参与,符合道德原则,符合人类对职业安全的诉求。
From FigureAI’s Grant Hosking
We’re really having our iPhone moment here, in which we believe will be the biggest industry in our lifetime
1.0.1 为什么要人形机器人
因为目前工厂流水线 / 家庭电器设备等都是为人类设计的,为了让机器人能够更适配这些场景,所以需要人形机器人。
1.1 市场规模
已知全球劳动力人口36亿人,假设每个人年薪为8k USD,那么
36亿 * 8k USD = 288k 亿 USD = 30 万亿 USD
1.2 发展趋势:从专用到通用
近年来,具身智能领域正在经历转变:从任务专用模型到通用基础模型。
何为通用?需要满足下述的能力:
- 感知能力。能够感知并理解当前的环境。
- 自主推理能力。知道自己要做什么。
- 行动能力。像人一样灵活行动。
当前,通用基础模型从端到端逐步走向分层式。目前主流的分层式算法类似人类的大小脑。
大脑:处理语言和视觉信息,理解环境和指令,给出高级决策。
小脑:基于大脑的高级决策,生成具体的控制指令。
举例:别人向我扔飞盘,大脑输出“接住它”的指令,小脑输出手脚的协同控制指令,用什么力度,在什么位置接住等。
1.3 卡点
1.3.1 卡点1:算法领域数据不足
目前大脑(VLM)进展迅速,小脑进展缓慢。因为大脑的训练数据仅仅来自于网络,是很充分的;小脑的训练数据目前相当匮乏,对于物理世界的理解仍不充分。
数据不足的核心原因:
- 数据采集成本过高:遥操作设备大约35w RMB / 台
- 缺乏统一采集标准:硬件决定的数据需求不统一,数据格式不统一,没有数据托管平台
- 跨模态融合能力不足:物理世界信息涉及视觉,指令,动作(力觉,触觉)。
能够支持机器人普遍应用的所需的数据量,暂时没有定论。
比如,特斯拉Optimus的数据量大约在百万小时级别,能够让Optimus在工厂工作。
真机数据和仿真数据的比例:1:9 - 1:10,但没有定论。
参考:https://www.thepaper.cn/newsDetail_forward_29953659
1.3.2 卡点2:硬件领域价格太高
- 成本太高,本体预期要降低至2-3w USD才可以接受
2 具身智能开发pipeline
2.1 数据采集
2.1.1 真机数据
常见方案:
- 腕部动作捕捉:VIVE Ultimate Tracker,捕捉腕部6DOF运动
- 手部动作捕捉:
a. Xsens Metagloves手套,依赖接触式测量
b. Apple Vision Pro,遥操作,非接触式,机器视觉算法
c. Leap Motion ,遥操作,非接触式,机器视觉算法 - 视觉信息:头戴式激光雷达 / 摄像头
下图为Apple Vision pro的数采方式。
2.1.2 合成数据
合成数据是指微调真机数据,产生分布不同的数据。比如调整光照,物体位置/类型/颜色等。
下图为调整物体位置的合成数据示例。
注意,因为要生成高保真的数据,因此该过程很耗时。比如GR00T要2min生成1帧,为了生成827h的数据,消耗105k【GPU小时】,用了3600块GPU,跑了1.5天。相当于一个GPU要跑10w小时。
2.1.3 网络数据
网络数据缺少标签,但是可以通过下述方法获得伪标签,从而对齐数据模态。
- IDM。通过少量真机数据训练之后,给网络数据打动作标签。
- LAPA。通过VQ-VAE压缩动作表征,可以得到潜在动作标签。
2.2 动作重定向 retargeting
输入:末端位姿
输出:各关节角度
由动作捕捉设备得到的末端位姿无法用于机器人控制,因为:
- 控制量不同。机器人控制最终要求的是关节角度,而角度不是动捕的输出,需要进行转换。
- 自由度差异。人手臂有7个自由度,但是机械臂如果只有6个自由度,那么有些动作做不了。
- 关节旋转幅度/肢体长度差异。比如人手腕能旋转180度,但是机械臂可能无法旋转那么多;人手臂长度和机械臂长度不同,均会导致有些动作做不了
因此,需要通过重定向技术将人类动作映射成机器人可达的动作。
关键技术:逆运动学Inverse Kinematics
2.3 模型搭建与验证
主要分为上肢模型和下肢模型。需要分别搭建相应的模型。
输入:真实动作(关节角度),视觉图像,语言指令
输出:预测动作
具体算法详见第3节。
2.4 真机部署
3 具身智能算法
3.1 操作 Manipulation
操作算法经历了如下3个阶段:
- 示教编程(Teaching Programming):人拖动机器人手臂,记录轨迹,然后重复执行。缺少泛化性。
- 机器视觉 + 传统规划。采用目标检测算法进行检测,然后调用运动规划算法生成轨迹。流程模块化,泛化性不强,类似智能驾驶的传统规控方案。
- 早期模仿学习与强化学习。针对单一任务进行训练,无法泛化到新任务。
3.1.1 重要方案
论文 | 入选原因 | 年份 | 团队 |
---|---|---|---|
RT-1: Robotics Transformer for Real-World Control at Scale | 通用型:在RT-1前一个模型通常只学1-2种技能,RT-1证明了一个机器人可学习多种技能;将Transformer成功移植到机器人上 | 2022 | |
RT-2: Vision-Language-Action Models Transfer Web-Scale Knowledge to Robotic Control | 分层式框架——VLA范式的开创者,而不是RT-1端到端的框架,实现了互联网知识在物理世界的应用 | 2023 | |
ACT: Action Chunking with Transformers for Low-Level Imitation Learning Control | 提出高效的模仿学习算法,通过小批量(短短几十次)遥操作演示,就可以学习,证明不需要上述谷歌量级的数据,激发了学界和工业界的热情 | 2023 | Stanford |
OpenVLA: An Open-Source Vision-Language-Action Model for Robot Control | 数据/算法/权重开源的贡献超过技术本身,将技术平民化,而不是被掌控在少数公司手里;第一个证明异构数据能够训练出具备强大泛化能力的机器人的方案 | 2024 | Stanford |
π0: A Vision-Language-Action Flow Model for General Robot Control | 第一个使用flow matching的方案,而不是之前的diffusion,基于ODE常微分方程,训练更简单,推理更快,解决diffusion的痛点 | 2024 | Physical Intelligence |
GR00T N1: An open foundation model for generalist humanoid robots | 如果上述的贡献是算法级,那么GR00T的贡献就是平台级。提出了数据金字塔,系统整合了多源异构数据。基座模型具备快速迁移和部署能力。 | GR00T N1: An open foundation model for generalist humanoid robots | 2025 |
3.2 行走 Locomotion
双足机器人分为传统方案和基于学习的方案。
传统方案依赖精确的动力学模型和复杂的控制理论(如MPC),在特定环境中是成功的(如自动驾驶),但是现实世界过于复杂和不确定,导致该方法鲁棒性不足。
3.2.1 重要方案
模型 | 入选原因 | 年份 | 团队 |
---|---|---|---|
Learning to Walk in the Real World with Minimum Real-World Data | 之前基于学习的行走都是在仿真中,该论文提供了sim2real的技术路径,证明强化学习能够在现实世界中控制机器人行走 | 2019 | 佐治亚理工 |
AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control | 1. 在机器人能走之后,该论文使行走动作更自然。使用了判别器判断机器人的动作和人的动作,促使机器人走的更像人。其创新性的判别器设计让模仿问题变成了更容易解决的分类问题;2.IL和RL结合。 | 2021 | UC Berkely / Goole |
HiFAR: Pushing the Limits of High-Fidelity Autonomous Recovery for Legged Robots | 解决了从摔倒到站立的问题。在这之前,鲁棒性指的是避免摔倒,现在扩展到摔倒后如何自主恢复,极大提升了实用性 | 2023 | SJTU / Huawei |
Dreamer系列 | 提出了新的训练范式:先学习一个世界模型,然后agent在世界模型中进行试错,学习策略,就像做梦一样 | 2020- | 多伦多大学 / Deepmind |
3.3 具身智能核心模块算法
3.3.1 flow matching
Diffusion算法的变体,算法原理更简单,推理速度更快,常常用到VLA模型的action模块。
3.3.2 GAIL
不管是具身智能,还是自动驾驶,都想要模型既拟人化,又具备泛化能力。其中拟人能力依靠专家数据,泛化能力依靠在环境中的自主探索和试错。如何取得两者的平衡是一个至关重要的问题。
针对Offline RL,可以简单粗暴地同时使用RL reward + IL loss,因为策略网络和环境不具备交互能力。但是这样做约束了策略的探索能力,对于out of distribution的问题依然无法很好的解决。
因此,使用GAIL,用判别器判别策略轨迹是否拟人,是一个更优秀的选择。判别器并不会直接将策略网络的输出和专家轨迹进行比较,而是判别器学习到专家轨迹的行为模式,从而进行判别。这样不仅能够用Online RL,而且在模仿专家方面也不会如上述那么粗暴了。
4 机器人产业链
脑 + 身体 -> 组装
4.1 脑
硬件:英伟达芯片
软件:VLA模型
4.2 身体
身体内部结构主要分为4种:
- 传感器,包括视觉传感器,力传感器等
- 执行器,包括线形执行器(Linear Actuator),旋转执行器(Rotary Actuator),==灵巧手(Dexterous Hand)==等
- 动力系统,包括电池,充电装置
- 结构件,包括机器骨架(碳纤维,铝合金等),面罩等
4.2.1 手
每根手指有3个关节,4个自由度,其中:
- 掌指关节,能够屈伸(握拳和张开)和内收外展(并拢和张开),2DOF
- 近端指间关节,能够屈伸,1DOF
- 远端指间关节,能够屈伸,1DOF
因此,一个手掌有20DOF
4.2.2 手臂
一根手臂有3个关节,7个自由度,其中
- 肩关节:3个旋转自由度
- 肘关节:1个旋转自由度
- 腕关节:3个自由度
4.2.3 腿部
一条腿有3个关节,8个自由度,其中7自由度为主动自由度:
- 髋关节:3个旋转自由度
- 膝关节:2个旋转自由度(可以屈伸,可以左右摆,想象跳皮筋)
- 踝关节:2个旋转自由度(可以屈伸,可以左右摆)
- 被动自由度:膝关节的线位移。它指的是股骨和胫骨是可以存在线性位移的,一般屈伸腿时会自然有极其微小幅度的位移,一般是忽略的。
但是机械腿的构型有3种:
- 仿人腿
- 仿鸟腿
- 合成腿
其中,人腿膝关节朝前的,鸟腿是“膝关节朝后”的。本质上是因为鸟类行走时其实是脚趾着地,人类是脚掌着地,下图的紫色为脚掌。
4.2.3.1仿人腿
一般仿人腿的机械腿是7自由度,去掉了膝关节的左右摆的自由度。
关节 | 人腿 | 仿人腿的机械腿 |
---|---|---|
髋关节 | 3 | 3 |
膝关节 | 2 | 1 |
踝关节 | 2 | 2 |
4.2.3.2 仿鸟腿
仿鸟腿的方案能耗更低,性能更强。想象一下人类冲刺时,是不是也是脚趾着地,而非脚掌着地?
仿鸟腿的形式一般为2自由度,髋关节一个,膝关节一个。
5 应用
总体思想:工业制造先行,家庭场景渐进。
领域 | 总结 | 优势 | 劣势 | 价格 |
---|---|---|---|---|
酒店配送机器人 | 未能完全商业化,劣势多于优势,可以助人,不能替人 | 配送,节省人力 | 功能单一(单向送货),其他酒店主要功能(换布草)做不到,改造多(WIFI全覆盖,电梯梯控改造,客房适配) | 2-3w |
to be continue
6 其他
机器人价格:
宇树H1: 60w
开普勒K1: 20w
优必选:600w
傅立叶GR1:300w
星海图R1: 20w