作者 | 昂昂昂@知乎 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/1964796069071296046
点击下方卡片,关注“自动驾驶之心”公众号
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
本文只做学术分享,如有侵权,联系删文
终于,终于啊,特斯拉终于分享点东西了。。。
来看看特斯拉说了点什么~
首先说了下特斯拉的架构,一个大模型,使用了大量的数据,这两点不用说大家也知道。使用了large context,应该是使用了长视频。同时受益于神经网络得计算是固定时间的,不像传统pnc里的求解器受到环境影响加上特斯拉强大的工程能力,FSD可以跑到36hz,直接出action -> acc / steer 这些应该大家也都知道。
接下来,说了一些做端到端的原因,为什么这样做?
基本上也是大家都知道的:
现实世界的人类的驾驶行为很难用一个评价函数来描述,这导致利用规则进行优化总是会碰到这样那样的问题。
感知预测和规划之间的接口定义是病态的,会有信息损失。
端到端更好扩展,更适合解决长尾问题。
相比传统pnc受到计算条件的影响,基于神经网络的固定的计算时间能够有效降低延时。
最后,哲学层面:Sutton的苦涩的教训,不要依赖人类经验预设,而是更多的依靠算力和数据。
这些基本上也是大家的一些共识。
然后说了两个case,来证明这个评价函数真是没法写,以及接口定义问题。
接下来算是重点了
端到端面临的三个主要问题:
维度灾难,高维到低维导致的监督信号不充足。
可解释性与安全保证。
评价。
维度灾难
简单的说就是我输入了一大堆token,但是我的监督信号就一个动作,这么大的网络和输入,神经网络能够找到太多的shortcut来拟合了,你如何保证其真正理解了驾驶行为呢?
做过端到端的一定理解他说的这一点,很多论文为了解决这些shortcut使用了较多的dropout,mask等方案,tesla今天说,其实你就好好整数据就行
各种trigger,小型神经网络挖数据,总之破解高维到低维的监督问题就是用丰富的数据,产生足够多的有效梯度。大量的数据保证了FSD的泛化性以及一定的安全性。
接下来,可解释性与安全保障,原来的感知结果其实都是预测了,而且还有3D gaussian,还有language,还有一些不想让我们知道的他没写。。这些都会当做COT的过程,用来推理最终的action。
特斯拉秀了一波他们在基于3D gaussian的重建方面的技术实力,没有技术细节,欸。。
看对比就是:快,支持动态物体,不需要什么点云初始化,新视角合成效果很好。(相关技术应该可以支持后边讲的world model)
语言用于决策,这个国内应该都在玩,特斯拉在这里不一定是领先的。
最后,评测,特斯拉说,这是三个问题里边最难得部分。
主要有这么几点:
就算你数据集质量非常高,你也不能用loss描述表现,这俩不是一个东西~ (这个应该和我们认知都是一样的)
开环评测代替不了闭环。(我也这么想的。。)
驾驶具有多模性,评测的指标要能覆盖这些不同的驾驶行为,不能说他绕行过了可以,刹车就不行之类的。
一种方式是评估行为后果的预测,这块没太看懂,意思是tesla每个action会有一个对这个action后果的评估,然后我们可以通过评估这个评估来看模型的好坏?可不可以理解为他们有一个critic,通过评估critic的好坏,来评估模型的好坏?(估计用了rl, policy的很大程度上取决于critic,这样就说的通了。)
做好评估集的平衡。
各种脏活,不过这是秘密,虽然重要但我不告诉~ 气死你~~~(可恶啊!)
重磅来了,基于world model的simulator,真实场景弄出来,然后通过action生成后续的视频,几年前的活这个还有点难,但是看现在sora2的表现,这个方案看起来确实是可行的,这里壁垒很高。看到这个图不用我说了吧 -> 通过构建world simulator,RL被大量使用了。
上图里边的multiview 全是假的。。。生成出来的,又让特斯拉秀到了。
通过world simulator,可以回放之前的问题,看看有没有解决或者改善,就像我们使用两段式仿真一样。
最后说了这套东西完全可用在人形机器人上。通过视频训练一个world model,然后先用数据喂一下机器人模型,之后可以在这里进行强化训练 or 仿真,闭环了。。
这一套其实也能想到,就是你会感觉很宏大,或者说觉得可能做不出来,但是特斯拉真的这么做的,并且死磕出来了,了不起呀。。。
不过这次特斯拉看起来只传道,不传术啊。。
完整版视频:
自动驾驶之心
论文辅导来啦

自驾交流群来啦!
自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com
1030

被折叠的 条评论
为什么被折叠?



