丰色 曹原 发自 凹非寺
量子位 | 公众号 QbitAI
用多模态大模型做自动驾驶的决策器,效果居然这么好?
来自商汤的最新自动驾驶大模型DriveMLM,直接在闭环测试最权威榜单CARLA上取得了SOTA成绩——
跑分比基线Apollo还要高4.7,令一众传统模块化和端到端方法全都黯然失色。

对于该模型,我们只需将图像、激光雷达信息、交通规则甚至是乘客需求“一股脑”丢给它,它就能给出驾驶方案——直接能够控制车辆的那种,并告诉你为什么要这么开。

这不仅让驾驶逻辑可控、过程具备可解释性,且更擅长解决特殊和复杂情况。
像什么给紧急车辆让行?小case:

你说你着急能不能超车?它也能灵活处理(a为超车成功,b为车道不空,拒绝超车):

简直不要太惊艳~
具体怎么实现,我们扒开论文来看。
多模态LLM破解自动驾驶难题
目前,自动驾驶系统主要有两种方案,模块化和端到端。
模块化方案顾名思义,把自动驾驶任务拆解为感知、定位和规控三个模块,各模块各自完成任务,最后输出车辆控制信号。

商汤科技的DriveMLM模型在自动驾驶领域取得突破,通过多模态大模型进行决策,不仅在闭环测试中表现出优于模块化和端到端方案的效果,而且提供了驾驶决策的可解释性。该模型能够处理复杂场景,如紧急车辆让行和乘客需求,有望推动自动驾驶系统的安全性和透明度。
最低0.47元/天 解锁文章
13

被折叠的 条评论
为什么被折叠?



