作者 | 天南 来源 | 天南AI茶馆
点击下方卡片,关注“自动驾驶之心”公众号
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
本文只做学术分享,如有侵权,联系删文
导读
最近,见证了人形机器人行业太多的不及预期。很多人问我,从技术角度上来看,人形机器人行业是否要进入一段寒冬了。今天我们通过理性的逻辑分析,来看目前行业发展的真实情况。
最近看到了太多的不及预期。
国外公司的表现和大牛预言都不是很乐观:
特斯拉Gen2因为发热、灵巧手短命的问题,被迫暂停今年的量产计划。而Gen3再次跳票,推迟到明年Q1。
Figure03本来万分期待,但被时代周刊爆出来多次拍摄剪辑。
Meta 首席AI科学家LeCun,说机器人行业远未实现真正智能。而Google deepMind负责人最近也提到:人形机器人进入家庭市场至少还要5-10年。

反观国内,倒是有些虚假的繁荣:
订单飞起,但被爆出多数为左手倒右手订单、不用交付的框架订单,远期大饼的订单等。
最后,
看了那么多视频,看了那么多方案,刷到了那么多订单,但还是看不到一个明确的可落地量产的未来。
硬件的繁荣好像给我们带来一个很大的误区,我们总以为软件跟上来也是迟早的事。
但细细想起来,这里面有个逻辑漏洞:
过去50年,机器人的硬件有了翻天覆地的变化吧,比如宇树王兴兴的经典战役通过电驱打败了波士顿动力的液压技术。但还是没有办法实现机器人的大规模的实用化普及。
原来本质的卡点就始终横在那里:
现在的AI技术的蓬勃发展是否真的能够让人形机器人行业涌现智能,这其实是一个大大的问号。
至少截止25年底,我作为深耕AI算法的研究员,我还没有看到那个让我惊叹的通用智能。
天南今天也尝试把看到的信息进行整理分析,来看下不及预期的问题到底出在哪里。
# 远没有到通用人工智能
虽然我们现在看到了很多很多的基于VLA技术的叠衣服,分拣包裹。虽然承认这已经需要不少难度在里面,比如如何克服柔性物体的抓取,比如适配更多异形包裹等。
但这些都是在特定场景下的特定数据训练,不具备任何泛化能力。这样就会导致一个问题,一旦到了家庭环境,马上就是崩盘。
而视频学习也是个很大的问题。
虽然特斯拉AI负责人前几天在ICCV强调他们已经可以使用视频学习让Optimus在工厂自行行走,以及我们也看到了很多的科研界的论文Paper表明了视频学习的思路和方法。

但我们到今天为止,还没有看到一家公司能够表明,他们可以从视频学习中学会了灵巧手的泛化的操作。
别看我之前的文章一句话就概括了大概的技术思路。但其实里面技术卡点还有很多,比如强化学习的奖励函数的设计,比如手部识别的精准度,比如逆动力学模型的准确率等等。
每一个环节都有可能是致命伤。
在我们告诉大家视频学习和世界模型是未来,是不可绕过的一环的时候。虽然是个正确的废话,但现实情况就是:
现实中视频学习还只是大公司的预研阶段,远没有到能够落地的阶段。
绝大多数公司都还是采用的真机采集操作,也包括谷歌 DeepMind机器人团队。最近看了他们算法负责人的访谈,提到:“Google最新的VLA工作也是采用的真机采集,视频学习其实还很难。”
说了这么多,其实就想要告诉你们,这个行业或许没那么乐观。
# 超预期的点可能在哪里?
那为什么又说人形机器人行业「大概」要进入第一轮寒冬?
因为我还心存希望,这里面有两个不确定因素。
1)特斯拉Optimus是否可以超预期?
建立在国内AI技术跟不上,FigureAI又多次剪辑拍摄的情况下。特斯拉的Optimus Gen3已经成为了唯一的一颗独苗。
马斯克一再强调,Gen3会是一个无与伦比的产品,会非常的像人,现在把几乎所有的希望放在Gen3上。
如果明年一季度Gen3的真机展示还存在各种翻车和缺陷,那可能大家的预期就基本都消耗殆尽了。
到那个时候,就会形成「特斯拉也不行,这个行业真的要进入一段寒冬。」的局面。
2)硬件做到极致,能打开什么样的市场?
这个地方还是要提到宇树,甚至要感谢宇树。
是宇树自己把硬件做到极致,走出了一条泛娱乐的道路,让大家看到了一条不一样的机器人道路。
现在越来越多的机器人企业开始沿着宇树的路线走,都想当这个行业中卖铲子的人。比如9998的小机器人,比如不断玩后空翻、玩跳舞聚合平台的某明星创业公司。
现在看到,其实不管通用AI机器人发展的如何。即使有寒冬,但这部分研究不会停,泛娱乐的路线还会继续下去。那由此推断,宇树的日子应该会持续过的比较舒坦。
# 写在最后
回望新能源汽车早年寒冬,续航焦虑、充电难题曾让行业举步维艰,可正是那段蛰伏期,技术迭代从未停歇,最终迎来爆发。
我想,如今人形机器人的不及预期,大概是另外一种形式蓄力吧。
自动驾驶之心
论文辅导来啦

自驾交流群来啦!
自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com
127

被折叠的 条评论
为什么被折叠?



