纯图像理解的时代该翻篇了！MMDrive：给自动驾驶装上「多模态大脑」

最新推荐文章于 2025-12-19 13:55:31 发布

原创最新推荐文章于 2025-12-19 13:55:31 发布 · 380 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#自动驾驶 #人工智能 #机器学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Minghui Hou等

编辑 | 自动驾驶之心

“只看图说话”的自动驾驶视觉模型，在真实路况中够用吗？遮挡、恶劣天气、复杂空间关系……这些挑战让传统模型捉襟见肘。今天要介绍的这项研究，正是要为自动驾驶系统打造一个更懂“场景”、更会“思考”的视觉语言模型——MMDrive。

论文标题：MMDrive: Interactive Scene Understanding Beyond Vision with Multi-representational Fusion
论文链接：https://arxiv.org/abs/2512.13177
作者单位：吉林大学，香港科技大学（广州），佐治亚理工学院，密歇根大学安娜堡分校

一、为什么传统方法不够用了？

目前主流的自动驾驶视觉语言模型（VLM），大多沿用“图像+文本”的双分支架构：视觉编码器提取图像特征，文本编码器理解问题，两者拼接后输入大语言模型生成答案。这种模式在简单场景中表现尚可，但面临三大瓶颈：

缺乏三维感知能力：二维图像难以表达深度、空间布局等关键信息；
语义融合能力有限：不同模态之间往往是“硬拼接”，未能实现语义对齐；
关键信息提取效率低：在复杂动态环境中，模型难以快速聚焦于重要区域。

图1. 自动驾驶的主流VLMs与所提出的MMDrive的比较。

(A)主流的图像理解范式：通过编码器提取图像和文本特征，并通过投影进行组合，限制了跨模态交互。
(B) MMDrive：该框架包含占用、激光雷达和场景描述模态，将传统的图像理解范式扩展到整体场景理解。它还融合了TMM和CMA，以实现多模态信息融合，从而增强在复杂驾驶场景中的表征能力和适应性。

正如下图所示：前向摄像头被遮挡，仅凭图像无法准确判断后方车辆状态。这提醒我们：驾驶场景的理解，必须超越“平面视觉”，走向“立体感知”。

图2. 在复杂的自动驾驶场景中，单纯的图像感知给物体识别带来了困难。

二、MMDrive 的三大核心突破

图3. MMDrive架构概述。

(1)该模型将多视角图像、文本问题、占用情况、激光雷达和场景描述作为输入。
(2)首先利用冻结编码器提取特定模态的特征。
(3)面向文本的多模态调制器（text -oriented Multimodal Modulator， TMM）根据文本问题的语义内容动态调整多模态信息的贡献，实现自适应的多模态融合。
(4)跨模态抽象器（Cross-Modal abstrator， CMA）通过提取关键信息进一步细化融合后的多模态表示。
(5)最后，将融合后的表示输入LLM以生成最终答案。