北大王鹤老师组 | 对具身智能的思路研究

作者 | 一辄@知乎  编辑 | 自动驾驶之心

原文链接:https://zhuanlan.zhihu.com/p/703097381

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心具身智能技术交流群

本文只做学术分享,如有侵权,联系删文

前几天听了王鹤老师的工作分享,感觉很有趣,之后有时间把论文都看一遍,现在简单记下思路
王鹤老师也是银河通用的创始人,现在银河应该融了有3个亿了。无论从具身科研主题,还是做公司来讲,技术逻辑是闭环的,故事脉络很清晰。也听说银河在做药店前置仓的取药探索
我也是具身新手上路,以下部分观点是我个人的理解,如有错误,麻烦指出讨论,谢谢!

本篇文章逻辑:

什么是具身智能 → 什么是具身智能大模型 → 王鹤老师组具身思路 → 具身感兴趣的一些点

什么是具身智能

前几天还听了圆桌讨论具身智能,主持人提的第一个问题就是它的定义。有些嘉宾提到了交互、数据等,我印象比较深的是上交的卢策吾老师提出的最简单的一个定义,具身智能就是具备身体的智能

其实也就是三维物理空间里机器人的智能。它的目标就是听从人类模糊指令做事,有一定自主性的表现。比如在家居场景下,人类坐在卧室说,我口渴了,机器人能自动到厨房的冰箱中拿一瓶可乐递给人类
应该是卢老师提的吧,有几个嘉宾坐在那里,过了几天我有点记不太清了qaq,好像记得那个讲话位置是卢老师

什么是具身智能大模型

从物理空间的角度来划分,大模型可以分为非具身大模型(Disembodied Model)、具身智能大模型(又被叫做机器人大模型)(Embodied VLA Model)。它们的区别是能否生成运动姿态(例如夹爪的末端位姿等),即是否能跟物理机器人联系起来。GPT是前者,RT是后者

61f14833a28ba9b030b4ba4317fef58c.png

个人觉得,目前具身大模型应该可以分为两大流派。一类是RT这种端到端大模型。一类是分层具身大模型(王鹤老师组是)

端到端具身大模型

以RT2为典型代表。输入是图像及文本指令,输出是夹爪末端动作。直接端到端地实现从人类指令到机械臂执行

a9ea4c59ea389bbf270d69ff84756103.png

但目前这类端到端的大模型有2个重要缺点:

第一,训练数据难收集,而泛化性差。谷歌花了上千万美金16个人耗时17个月收集得到了13万条厨房数据训练RT,模型在厨房表现很好,但除了厨房成功率却骤降至30%。这种泛化性难其实一定程度上也是数据采集没有做到scalable。归根到底就是数据问题

机器人数据不像当前互联网图像/文本数据那样大量而易得,更缺少机器人界自己的“ImageNet”。数据这方面是一个非常重要的研究课题,之后我会再看一些这方面的工作

可想而知,如果真正要训练一个通用具身大模型,需要的数据量级、数据收集成本、模型训练成本该多恐怖。数据是一项重要制约,所以很多研究转向了分层具身的形式

第二,推理速度慢。RT2中用到的LLM是谷歌的PaLM-E,频率1-3Hz,也就是说响应速度0.3s甚至1s

好像OpenAI和Figure合作用的是小模型,动作输出频率200Hz,还挺丝滑。这个之后我再了解一下

分层具身大模型

目前围绕做决策的大语言模型(如GPT),有许多在做工作流架构,适应机器人使用的

我觉得有两个点比较重要。其一,是需要摸清大语言模型的技术能力边界,它能干什么,不能干什么,不能干什么,不能干的部分就像人类使用工具一样,去调用传统小模型算法解决。其二,大语言模型是二维的,它基本不具备三维物理空间感知能力,也就是需要一些辅助工具来做场景理解(比如一些经典小模型)

ff7cab3728e58164e8f7eb9ac4380c9a.png
王鹤老师组的分层大模型系统

底层是硬件层,中间层是些响应快小模型(比如三维感知、自主建图、自主导航、物体抓取、开门开抽屉开冰箱、移动操作、挂衣服叠衣服、柔性物体操作等),上层是用来做推理慢的做任务规划的大语言模型LLM

当得到指令,LLM负责分析,安排调度哪个小模型API。小模型执行完后,LLM分析结果,研究下一步该怎么做。比如可以加入一些交互、结果判断等等,不同paper工作流中有所不同

例如用三维视觉小模型来弥补LLM场景理解能力差的问题。先用Grounded-SAM小模型做分割、求bbox,再将这处理后的图片扔给GPT,它就能更好地理解做出决策

孰劣孰优

目前端到端VLA性能没有达到通用的原因,是受数据制约。未来当机器人数据达到量级,也许这会是最简单、最优的通用机器人大模型数据实现路径,是一条未来之路

但当下,使用分层具身也不失为一个选择。王鹤老师在演讲中提到了一个隐藏的逻辑,没有做好小模型的公司、没有能让动作小模型泛化的公司,不可能让大模型泛化。因为大模型在单一任务上的数据需求远高于小模型。而当分层具身做得足够好,或者讲王鹤老师说得抓取、放置、柔性物体操作、关节类物体操作等小模型做得足够好,能够达到B端C端应用落地的程度,机器设备在某个场景下铺开,会收集到大量数据,跑通数据飞轮,为实现端到端VLA的训练打下坚实的基础

这是蛮有意思的一点。现在很多做具身智能、人形机器人的创业团队其实都意识到这波物理AI变革应该在智能性上,而从目前的技术道路上来看(不排除未来会出现新的通向AGI的技术方向),数据是最大的制约瓶颈。大家都想率先跑起数据飞轮,反向提升模型性能,都在讲这个故事。但大家都明白这个逻辑,能找到一条自己的道路讲清自身的优势、为什么自己的产品能铺开使用,如何达成故事闭环,这是很考验初创公司和创始人战略思维的一点

王鹤老师组工作

感觉听演讲,有两个方面。其一,就是上面提到的分层具身智能大模型的框架流程。其二,是三维数据仿真

王鹤老师2017年读博时就在做仿真研究。可以通过生成大量三维仿真数据,来训练分层具身框架里的中间小模型,让其有更好的三维理解能力。有些小模型如果用二维图像来训,也缺少一些空间信息

Figure好像用的就是二维视觉模型,很难泛化,受光照等很大影响。而三维数据能看到的是点云、物体的几何,不会受到外部环境颜色、光照、纹理等影响 目前读的论文还不多,还处在泛读和学习阶段。以下我比较感兴趣的几个点,之后想看下王鹤老师及其它国内外学者做的研究,也找找综述啥的。如果评论区朋友们能帮我指路就更感谢啦!

其一,仿真数据合成方式(及目前应对数据不足的从数据端、模型端的应对方式)

其二,分层具身这个思想在不同组的具体实现框架区别

其三,机器人大模型中对三维视觉/场景理解的部分(是二维LLM很匮乏的一点)

其四,抓取(通过海量合成数据的泛化抓取训练思路等)

其五,导航大模型(好像银河有个工作是在没有三维定位建图激光雷达,只在图片/命令下在未知环境里行走找路,也有看到一些其它相关工作)

更多资料欢迎加入『具身智能知识星球』,国庆期间我们偷偷搭建了一个全栈技术社区

80843d0c283933c619f8e24659e3b35f.png

c565c8470e354e75c9bd0ceb2fd20478.jpeg

① 全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

91abe6bb75bda9ff220301116fc7d9df.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

9710eeb37411dee207de9a4c46584eec.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

fb1b1f03a35f5f70d39fed52c1091571.jpeg

④【自动驾驶之心】全平台矩阵

77db100e726555dbb4cb1e10e0aa4cb5.png

内容概要:本文介绍了一个基于多传感器融合的定位系统设计方案,采用GPS、里程计和电子罗盘作为定位传感器,利用扩展卡尔曼滤波(EKF)算法对多源传感器数据进行融合处理,最终输出目标的滤波后位置信息,并提供了完整的Matlab代码实现。该方法有效提升了定位精度与稳定性,尤其适用于存在单一传感器误差或信号丢失的复杂环境,如自动驾驶、移动采用GPS、里程计和电子罗盘作为定位传感器,EKF作为多传感器的融合算法,最终输出目标的滤波位置(Matlab代码实现)机器人导航等领域。文中详细阐述了各传感器的数据建模方式、状态转移与观测方程构建,以及EKF算法的具体实现步骤,具有较强的工程实践价值。; 适合人群:具备一定Matlab编程基础,熟悉传感器原理和滤波算法的高校研究生、科研人员及从事自动驾驶、机器人导航等相关领域的工程技术人员。; 使用场景及目标:①学习和掌握多传感器融合的基本理论与实现方法;②应用于移动机器人、无人车、无人机等系统的高精度定位与导航开发;③作为EKF算法在实际工程中应用的教学案例或项目参考; 阅读建议:建议读者结合Matlab代码逐行理解算法实现过程,重点关注状态预测与观测更新模块的设计逻辑,可尝试引入真实传感器数据或仿真噪声环境以验证算法鲁棒性,并进一步拓展至UKF、PF等更高级滤波算法的研究与对比。
内容概要:文章围绕智能汽车新一代传感器的发展趋势,重点阐述了BEV(鸟瞰图视角)端到端感知融合架构如何成为智能驾驶感知系统的新范式。传统后融合与前融合方案因信息丢失或算力需求过高难以满足高阶智驾需求,而基于Transformer的BEV融合方案通过统一坐标系下的多源传感器特征融合,在保证感知精度的同时兼顾算力可行性,显著提升复杂场景下的鲁棒性与系统可靠性。此外,文章指出BEV模型落地面临大算力依赖与高数据成本的挑战,提出“数据采集-模型训练-算法迭代-数据反哺”的高效数据闭环体系,通过自动化标注与长尾数据反馈实现算法持续进化,降低对人工标注的依赖,提升数据利用效率。典型企业案例进一步验证了该路径的技术可行性与经济价值。; 适合人群:从事汽车电子、智能驾驶感知算法研发的工程师,以及关注自动驾驶技术趋势的产品经理和技术管理者;具备一定自动驾驶基础知识,希望深入了解BEV架构与数据闭环机制的专业人士。; 使用场景及目标:①理解BEV+Transformer为何成为当前感知融合的主流技术路线;②掌握数据闭环在BEV模型迭代中的关键作用及其工程实现逻辑;③为智能驾驶系统架构设计、传感器选型与算法优化提供决策参考; 阅读建议:本文侧重技术趋势分析与系统级思考,建议结合实际项目背景阅读,重点关注BEV融合逻辑与数据闭环构建方法,并可延伸研究相关企业在舱泊一体等场景的应用实践。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值