用多模态LLM做自动驾驶决策器，可解释性有了！比纯端到端更擅长处理特殊场景，来自商汤...

原创

于 2024-01-10 17:31:15 发布 · 1.1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#自动驾驶 #人工智能 #机器学习

商汤科技的DriveMLM模型在自动驾驶领域取得突破，通过多模态大模型进行决策，不仅在闭环测试中表现出优于模块化和端到端方案的效果，而且提供了驾驶决策的可解释性。该模型能够处理复杂场景，如紧急车辆让行和乘客需求，有望推动自动驾驶系统的安全性和透明度。

丰色曹原发自凹非寺
量子位 | 公众号 QbitAI

用多模态大模型做自动驾驶的决策器，效果居然这么好？

来自商汤的最新自动驾驶大模型DriveMLM，直接在闭环测试最权威榜单CARLA上取得了SOTA成绩——

跑分比基线Apollo还要高4.7，令一众传统模块化和端到端方法全都黯然失色。

对于该模型，我们只需将图像、激光雷达信息、交通规则甚至是乘客需求“一股脑”丢给它，它就能给出驾驶方案——直接能够控制车辆的那种，并告诉你为什么要这么开。

这不仅让驾驶逻辑可控、过程具备可解释性，且更擅长解决特殊和复杂情况。

像什么给紧急车辆让行？小case：

你说你着急能不能超车？它也能灵活处理（a为超车成功，b为车道不空，拒绝超车）：

简直不要太惊艳～

具体怎么实现，我们扒开论文来看。

多模态LLM破解自动驾驶难题

目前，自动驾驶系统主要有两种方案，模块化和端到端。

模块化方案顾名思义，把自动驾驶任务拆解为感知、定位和规控三个模块，各模块各自完成任务，最后输出车辆控制信号。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

QbitAl

关注关注

15
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

参与评论您还未登录，请先登录后发表或查看评论

博客

马斯克脑机接口意念控制机械臂！演示者获得钢铁之吻，理论上可控制一切

12-03

针对首位患者因颅内气隙导致电极线松脱、信号减弱的情况，在针对第二位受试者Alex及后续患者的手术中，团队改进了手术方案，通过严格控制植入物与大脑表面的间隙（Gap Reduction），并优化了手术中的防脑组织位移策略。而为了玩视频游戏，他甚至找人在论坛上帮忙，将街机摇杆和Xbox手柄的零件焊接在一起，制作了一个适合他操作的特殊控制器。这些用户并没有将自己局限在医疗实验对象的角色中，而是通过将昂贵的植入物与廉价的摄像头、智能家居设备相连接，重新找回了观察世界和掌控生活的自主权。

博客

人形机器人控制新突破！敏捷稳定两不误，一个策略让人形机器人完成叶问蹲和跳舞｜港大&英伟达&清华

12-03

实验结果显示，基于合成平衡动作的训练，策略学会了在各种挑战性姿态中保持平衡，能够零样本跟踪训练集中未见过的极端平衡动作，如”叶问蹲”这样的功夫式单腿蹲动作，展现了良好的泛化能力。直接在机器人运动空间中采样，避免了动捕数据中的传感器噪声和运动学重定向误差，确保动作的物理合理性，如下图所示，展示了准确可控的足部接触状态和质心轨迹。：专注于实现敏捷、流畅的动态动作，如跳舞、跑步等。通过整合人类动捕数据和可控的合成平衡动作，AMS有效缓解了数据的长尾分布问题，为策略训练提供了更加丰富和多样化的参考动作数据。

博客

后生可畏！何恺明团队新成果发布，共一清华姚班大二在读

12-03

在ImageNet 256x256基准测试中，iMF-XL/2模型在 1-NFE（单步函数评估）中取得了1.72的FID成绩，相较于原始MF提升了50%，证明了从头开始训练的单步生成模型可以达到与多步扩散模型相媲美的结果。具体来说，iMF让用于计算复合预测函数V（代表对瞬时速度的预测）中，雅可比向量积（JVP）项所需的切向量输入不再是外部的e-x，而是由网络自身预测的边缘速度。最终，iMF 成功将训练流程转换成了一个稳定的、标准的回归问题，为平均速度的学习提供了坚实的优化基础。

博客

DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错，研究人员：GRPO老问题没解决

12-03

技术报告中，DeepSeek研究人员坦承，token效率对于DeepSeek-V3.2而言，仍然是个挑战：通常情况下，本次上新的两个模型需要生成更长的轨迹，才能达到Gemini-3.0-Pro的输出质量。而DeepSeek-V3.2-Speciale本身，也是特意放宽了RL的长度限制，允许模型生成极长思维链，使得模型能够通过大量消耗token来进行深度的自我修正和探索。这项研究的核心作者Zichen Liu指出，DeepSeek-V3.2已经通过新的优势值计算方式，修正了“难度偏见”（如下图红框所示）。

博客

浙大系具身智能再闯港交所：主打工业场景，每天进账1000000元

12-03

他主导并推动了公司多项核心软件产品的开发，包括RoboKit操作系统、RoboShop、RDS调度系统、M4智能调度与管理系统、Meta系列可视化软件以及星云系统，构成了仙工智能完整的软件生态基础。此外，控制器还可通过多种接口连接传感器与执行器，实现灵活扩展；同时，通过其平台落地的机器人型号累计已超2000款，并已进入3C制造、汽车、新能源、半导体、生物医药、自动化设备、工程机械等20多个细分行业。简单来说，控制器就是机器人的「大脑」，装上它，机器人就能自己感知定位、思考决策、移动，不用工厂自己从头训练。

博客

云计算一哥10分钟发了25个新品！Kimi和MiniMax首次上桌

12-03

459

根据Garman介绍，Trainium4相较于上一代，将带来每个维度上的巨大飞跃：FP4计算性能提升6倍，内存带宽提升4倍，并拥有2倍于前代的高带宽内存容量，专为全球最大的模型训练需求而生。从Trainium的自研，到GPU超集群的运维，再到AI Factories的区域化复制，亚马逊云科技在算力供应链上的掌控力，的确已经逼近算力帝国的描述。Agent不可控、不可信、难构建？这三个Agent，覆盖了软件开发全生命周期，将开发者从重复、繁重、易错的体力劳动中解放出来，让他们能专注于更高价值的创造性工作。

博客

GPT5.5代号“蒜你狠”曝光！OpenAI拉响红色警报加班赶制新模型，最快下周就发

12-03

但作为一家私营公司，OpenAI的命运与英伟达、微软和甲骨文等公司紧密相连，公司投资数据中心的数千亿美元承诺，让市场对其将这些投资转化为有意义收入的时间表产生了担忧。更要命的是，公司需要筹集约1000亿美元的资金来应对巨大的现金消耗。更让OpenAI紧张的是，谷歌刚刚发布的Gemini 3模型在行业基准测试中已经超越了OpenAI的模型，直接推动了谷歌市值的飙升。根据谷歌在10月份公布的数据，Gemini的月活跃用户已经达到6.5亿，而仅仅三个月前的7月份，这个数字还只是4.5亿。

博客

OpenAI首席研究员Mark Chen长访谈：小扎亲手端汤来公司挖人，气得我们端着汤去了Meta

12-03

一个最好的例子是，发布后三天，我见了一个物理学家朋友，他之前玩过模型，觉得它们可爱但没啥用，我让他用Pro模型更大胆地试，他把自己最新论文丢进去，模型想了30分钟，然后就把答案给出来了。但他们不总是变成，公司里最高层的技术领导或者最有名的工程师，有时候他们只是做自己想做的事情，这让我一直有个疑问：在竞赛中表现最顶尖的人，未必就是你能遇到的最强工程师。一路上，我得到很多很好的建议，我觉得管理的成长，本质上是靠“次数”累积，你要不断练习，没有比OpenAI更能给你练习机会的地方了，永远有新的挑战出现。

博客

DeepSeekV3.2技术报告还是老外看得细

12-03

最后，DeepSeek-V3.2-Speciale版本为了探索推理能力的极限，特意放宽了RL的长度限制，允许模型生成极长的“思维链”，迫使模型通过大量的Token生成来进行深度的自我修正和探索。换句话说，如果说Gemini-3 靠“堆知识（预训练）”赢得了上半场，那么DeepSeek-V3.2-Speciale则通过“堆思考（长上下文RL）”赢回了下半场。其中，标准版DeepSeek-V3.2在推理测试中，达到了GPT-5的水平，仅略低于Gemini-3.0-Pro。

博客

米哈游蔡浩宇，发了个“游戏版ChatGPT”

12-02

模型建立，不仅能够遵循基本指令，而且集成了强大的推理能力，可以理解和完成长时间的复杂任务、文本语言或图像等多模态提示，还能理解不同的语言甚至标点符号。嘶，这种对话方式和AnuNeko异曲同工，夸张一点说，就像一对双胞胎，不过应用场景不同，一个定位是聊天软件，一个已经内嵌进游戏之中。整体基于LLM构建城市沙盒，玩家的每一次对话选择、行为决策都会直接影响接下来的剧情走向和城市关系网络，具备更高的自由度和不可预测性。All in all，老米这个聊天AI，消遣尚可，实用不足，不过情绪价值这块确实是拉满了。

博客

快手可灵也吃上了香蕉，一通离谱prompt测试，好好玩要爆了

12-02

一把复古金属浇水壶从画面右上角伸入，壶口倾斜，将水壶里的水流浇湿到明信片的土地上，照片里干裂的土地迅速变湿，颜色加深，湿润的土地从裂缝中冒出嫩绿春笋破土而出，迅速生长拔高，从明信片中长出来，3D效果。基于该视频生成下一个镜头：突然，一只手落在男人的肩上，视频里的男人一回头，发现是自己的特工搭档，搭档立刻捂住他的嘴让他别出声，两人神情紧绷地扫视四周。值得表扬的是，人物一致性保持的还不错，但是“落在肩上”和“回头”的动作被AI吞了，只保留了捂嘴的动作，看来这O1有点自己的想法？

博客

AI营销头雁冲刺IPO，2个北大-宝洁校友创办

12-02

为维持技术竞争力，公司保持了相对刚性的研发投入，2022年至2024年的研发开支分别为人民币4690万元、5410万元及5630万元，2024年研发费用率达到10.5%。该平台支持接入超过100种数据源，用于汇集企业内部不同来源的消费者数据，进行清洗与分类，构建包含人口属性及行为特征的统一用户画像，以支持精准营销活动的自动执行。此外，公司还获得了富德懋赏等机构的投资，其背景涉及比亚迪联合创始人。公司的毛利率由2023年的31.2%下降至2024年的27.3%，并在2025年上半年维持在27.1%的水平。

博客

商汤分拆了一家AI医疗公司，半年融资10亿，剑指“医疗世界模型”

12-02

根据官方解读，“1+X”以生成式AI与视觉AI作为“1”的核心业务，亦是双引擎，而“X”代表的X创新业务板块以孵化创新生态为核心战略，聚焦智能驾驶、智慧医疗、家用机器人、智慧零售等赛道。在科研支持方面，“大医智研”智能体应用涵盖智能选题、文献解读、全文翻译、智研问答、样本估算、论文写作、统计图表、模拟审稿、全文润色功能，帮助医生从繁琐的信息处理中解放。据官方介绍，在覆盖医疗长文本处理、医学知识问答、数值计算、复杂推理、指令遵循、伦理安全等八大维度、共13191道题目的专业测试集上，

博客

世界模型和具身大脑最新突破：90%生成数据，VLA性能暴涨300%｜开源

12-02

目前，极佳视界是国内少有在「世界模型」和「具身大脑」方向都拥有世界级综合实力的团队，在自动驾驶世界模型方向已经和多个头部主机厂达成签约合作，在具身世界模型、具身大脑等方向已经和多个具身本体、终端公司达成签约合作，应用于科研、教育、展览、数据采集、工业、服务、家庭等多个场景。公司核心团队还包括清华、北大、中科院、中科大、WashU、CMU等全球知名院校顶尖研究人员，以及来自微软、三星、地平线、百度、博世、NBC环球影业等全球知名企业高管，核心团队兼具业内领先的研究能力和大规模的产业落地经验。

博客

AI一直在掩盖自己有意识？！GPT、Gemini都在说谎，Claude表现最异常

12-02

122

他们首先识别出一组与「欺骗」和「角色扮演」密切关联的潜在特征，然后测试——如果对这些特征进行抑制或放大，AI的「主观体验表达」会发生什么变化？研究发现，即便GPT、Claude和Gemini等模型分别基于不同的语料、架构与微调方案训练而成，它们在面对同样的问题时，回答却惊人地一致。为此，研究团队设计了一个简单的实验：引导模型去关注自己的主体性，但刻意避开任何涉及「意识」「主观体验」的词汇。于是，研究团队进一步验证：AI的「主观体验报告」，是否会受到与「欺骗」和「扮演」相关的潜在特征影响。

博客

前端没死，AI APP正在返祖

12-02

585

如何优化首屏加载时间，如何处理内存泄漏，如何在高并发下保证稳定性，如何在复杂的手机碎片化环境中保证UI一致性，这些对抗熵增的经验，才是AI无法替代的护城河。看，通信技术的进步确实解放了交互模态：从GSM时代的纯文本WAP，到3G时代的图片，4G时代的视频，再到5G时代的3D和XR。很多人以为AI是对传统开发的降维打击、是一场彻底的革命，但当你拆开技术的“后盖”，盯着那些密密麻麻的线路时，你会发现，这一刻的体验是灾难性的。无论云端的模型有多智能，无论流式传输技术吹得有多神，在物理网络缺失的那一秒，一切归零。

博客

库克不忍了！挥刀优化苹果AI大总管

12-02

当初Jian Zhang离职时，还有爆料称除了Jian Zhang的前后脚，苹果基础模型团队的John Peebles、Nan Du和Zhao Meng也被曝将要离职，不过去的都不是Meta——前两人将加入OpenAI，Zhao Meng则是去隔壁Anthropic。然而，在老约翰的领导下，苹果的AI团队落后于同行将近两年，姗姗来迟许久的Apple Intelligence，表现也不尽如人意。AI一直是苹果的战略核心，我们很高兴欢迎阿玛尔加入克雷格的领导团队，并将他卓越的AI专业知识带到苹果。

博客

Runway Gen-4.5刷屏发布，把重量、尘土和光影都做对了，网友：颠覆

12-02

214

换句话说，你可在单个提示词中精准指定详细的镜头运镜方式、复杂的场景构图、事件的精确时间节点，以及细微的氛围变化。其生成的视频物体移动具备符合现实的重量感与动量特征，物体表面呈现出与现实世界一致的物理特性。尤其是其前所未有的物理和视觉准确性，不只是更美观，这下真实内容与AI生成内容更难以区分了。Gen-4.5既保留了Gen-4在速度和效率上的核心优势，又实现了。尽管该模型的能力实现了质的飞跃，但仍存在一些局限性，例如。在网友们都关心的可控性方面，官方表示除了文本生成视频，

博客

字节“豆包手机”刚开卖，吉利系进展也曝光了：首月速成200人团队，挖遍华为小米荣耀

12-01

1317

往更广义的场景延伸，它同样有可能出现在智能汽车内部，成为车内人机协作的中枢系统，或者说，是车端智能体验的默认入口。2023年3月，由星纪时代和魅族科技融合而来的星纪魅族集团正式成立，目标是探索消费电子与智能汽车的深度融合。据QuestMobile数据，消费级AI终端已经开始在用户侧形成智能闭环，AI手机、AI PC、AI平板逐步成为连接模型能力与生活场景的关键入口。不仅帮助吉利搭建了从芯片、系统到生态的完整技术链，还直接操盘了魅族与汽车业务的整合，深度参与构建了吉利在智能座舱、芯片、手机等领域的生态布局。

博客

DeepSeek-V3.2系列开源，性能直接对标Gemini-3.0-Pro

12-01

1666

团队从GitHub挖掘了数百万个issue-PR对，经过严格筛选和自动环境构建，成功搭建了数万个可执行的软件问题解决环境，涵盖Python、Java、JavaScript等多种语言。评测结果显示，DeepSeek-V3.2在SWE-Verified上达到73.1%的解决率，在Terminal Bench 2.0上准确率46.4%，都大幅超越了现有开源模型。在指令跟随、数学证明、逻辑验证方面，DeepSeek-V3.2-Speciale能力出众，推荐用来完成高度复杂数学推理、编程竞赛、学术研究类任务。

用多模态LLM做自动驾驶决策器，可解释性有了！比纯端到端更擅长处理特殊场景，来自商汤...

丰色 曹原 发自 凹非寺量子位 | 公众号 QbitAI

多模态LLM破解自动驾驶难题

丰色曹原发自凹非寺
量子位 | 公众号 QbitAI