作为具身智能的子领域,自动驾驶已经步入了端到端时代。具身智能是自动驾驶的升维问题,不论是硬件的本体构型和形态、还是算法的模型输入输出都还在百花齐放的萌芽状态。在具身领域,大家也对 VLA 端到端大模型的方案很青睐,但是端到端自动驾驶该遇到的问题一个也逃不掉(端到端问题的详情可以见之前写的
除此之外,由于没有现成大规模部署好的具身本体,具身智能还有非常棘手的数据问题,如何高效地大规模采集机械臂数据用作模仿学习算法的燃料,来训练一个通用场景下,有通用技能的操作算法是一个大问题。运动控制大部分都是用 RL 进行训练,所以本文只讨论操作任务面向模仿学习/行为克隆的数采方式
01具身数据的数据金字塔

02工业界具身数采现状
这里主要讨论三家企业:特斯拉、Physical Intelligence 以及智元
2.1 Tesla

从 Tesla 放出的视频中可以看出,目前 Optimus 的数据来自于 VR 遥操 + 动捕手套:
-
操作员会戴上 VR 眼镜用于和机器人的视野对齐
-
动捕手套捕捉的手指运动转发到 Optimus 的灵巧手上
另外,从 Tesla 前段时间的 We Robot 发布会上可以看到 Optimus 的表现,从南哥的分析也可以看到,Optimus 的上肢行为应该是遥操,但其 locomotion 能力以及整机遥操的丝滑程度都还是很强的。BTW,前几天放出的接球 Demo 看着也有点像是遥操,进一步证明了遥操延时很低,而且 Retargeting 的映射做的很好
2.2 Physical Intelligence
其实也可以把 Physical Intelligence(PI)也归类到学术界里面,但是 Paper 里面展示的 1w 小时的数据实在是很难把其作为一个学校实验室来看待。

PI 并不做自己的本体,而且做的大模型 π0 也发布了一篇 Paper,有一些非常有价值的结论,放出的 demo 也蛮有意思,已经在和国内的公司合作,各个具身实验室或者企业也都在复现,非常有参考价值。从 Paper 中可以看到 PI0 Paper 中使用了 1w 小时的数据,共计七种 or 八种本体构型的数据
2.3 智元机器人



从视频中所公开的画面可以看到,智元至少在并行走两条数采方式,此外主要展示的是夹爪任务,而不是灵巧手
-
VR 遥操:和 Tesla 的 VR 遥操方式不太一样,操作员将 VR 头盔挂在胸前,而不是戴在头上。所以他们的头盔只用作控制器的定位,而不用做视野对齐
-
仿真生成:视频里有一小段很炫的仿真 Demo,机器人将鸡蛋放到碗里,除了机器人本体以及交互对象(鸡蛋和碗)之外,周围仿真环境以及物体资产一直在变。看样子是已经串通了这样的 Scale Up 流程。如果能在仿真环境中生成一个轨迹,可以规模化地扩充和生成若干条轨迹

最低0.47元/天 解锁文章
1314

被折叠的 条评论
为什么被折叠?



