点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享北理工&清华最新的工作!MMTL-UniAD:辅助驾驶感知中多模态和多任务学习的统一框架(CVPR'25)。如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『多任务学习』技术交流群
论文作者 | Wenzhuo Liu等
编辑 | 自动驾驶之心
写在前面 & 笔者的个人理解
高级驾驶辅助系统需要对驾驶员的心理/生理状态以及交通环境进行全面感知,但现有研究往往忽视了这些任务之间联合学习所带来的潜在优势。本文提出了一种统一的多模态多任务学习框架——MMTL-UniAD,该框架可同时识别驾驶员行为(如四处张望、交谈)、驾驶员情绪(如焦虑、愉快)、车辆行为(如变道、转向)以及交通环境(如拥堵、通畅)。本研究的关键挑战在于如何缓解多任务联合学习过程中产生的负迁移现象。该现象是多任务学习中核心难点,指由于任务间存在差异或冲突,导致某些任务在联合训练下的性能反而低于其单独训练时的表现。为解决这一问题,我们在框架中引入两个核心组件:多轴区域注意力网络和双分支多模态嵌入模块。前者通过多重注意力机制提取与任务高度相关的关键特征,缓解由无关特征带来的负迁移问题;后者采用双分支结构,在提取任务共享特征的同时保留任务特有特征,并通过自适应调节机制平衡两类特征的权重,在增强跨任务知识迁移的同时,有效减少任务间冲突。我们在公开数据集 AIDE 上对所提方法进行了验证,结果表明 MMTL-UniAD 在各项任务上均实现了 SOTA性能,充分验证了该方法的有效性以及多任务学习在高级辅助驾驶系统中必要性。
论文题目:MMTL-UniAD: A Unified Framework for Multimodal and Multi-Task Learning in Assistive Driving Perception
论文链接:https://arxiv.org/pdf/2504.02264
代码链接:https://github.com/Wenzhuo-Liu/MMTL-UniAD
1. 引言
在过去十年中,高级驾驶辅助系统(ADAS)通过监测驾驶员状态和周围交通环境显著提高了驾驶安全性。尽管如此,全球每年仍有约135万人死于交通事故,其中超过65%的事故与驾驶员异常的心理或生理状态有关 。因此,准确识别驾驶员状态对于ADAS至关重要,但由于驾驶员状态与交通环境之间复杂的因果关系,这一任务仍面临巨大挑战(见图1)。例如,交通拥堵可能会引发驾驶员的焦虑情绪,进而影响其驾驶行为 ;在通过交叉路口或者即将变道时,驾驶员往往会环顾四周。
目前大多数针对驾驶员状态和交通环境识别的研究都集中于单一任务,例如仅关注驾驶员行为识别、情绪识别或交通环境分析。然而,这些方法忽视了任务间的内在关联,从而限制了跨任务学习的潜力。实际上,在真实驾驶场景中,这些任务往往相互影响、彼此关联。以变道行为为例,它不仅取决于当前道路的拥堵状况,还与驾驶员的实时状态密切相关。
多任务学习通过挖掘相关任务之间的潜在关联,有助于整体提升各任务的性能表现。然而,当任务间相关性较弱时,联合学习容易引发负迁移现象,反而导致部分任务性能下降。因此,现有研究多聚焦于相关性较强的任务组合,例如将车道线识别、目标检测与可行驶区域分割等视觉任务结合,以增强对交通环境的理解,或联合学习驾驶员行为、情绪与意图识别等任务,以更全面地反映驾驶员的内部状态。尽管这些研究利用任务间的高度相关性在一定程度上缓解了负迁移的风险,但却忽视了驾驶员相关任务与交通环境识别任务之间的内在联系,导致驾驶员状态与环境信息难以实现有效融合,从而限制了ADAS对驾驶场景的全面理解能力。
为应对上述挑战,本文提出了MMTL-UniAD,这是一个用于辅助驾驶感知的多模态多任务统一框架。该框架利用多模态数据,实现对驾驶员行为、情绪、交通环境以及车辆行为的同步识别。首先,我们设计了一个多轴区域注意力网络,用于处理来自驾驶环境与驾驶员的多视角图像。该网络通过水平-垂直双向的注意力机制提取全局上下文信息,并进一步利用区域注意力提取兴趣触发特征,从中筛选出与任务高度相关的语义信息,从而缓解任务间的负迁移影响。此外,我们基于软参数共享策略,引入了一种双分支多模态嵌入模块,同时提取任务共享特征与任务特有特征,并自适应地调节两类特征之间的权重,在促进任务间正向迁移与信息共享的同时,保留各任务的特性,从而缓解多任务冲突。我们在公开数据集 AIDE 上对所提方法进行了验证,实验结果表明,MMTL-UniAD在多个任务上均优于现有最先进方法。

2. 算法详解
2.1 模型介绍
MMTL-UniAD 的整体框架(见图2)主要包括两个核心模块:多模态编码器和双分支多模态嵌入模块。前者由多轴区域注意力网络(MARNet)与三维卷积神经网络(3D-CNN)组成。其中,MARNet 通过多重注意力机制,从多视角图像中提取关键特征;而 3D-CNN 用于从驾驶员姿势和手势关节点数据中提取时空特征。后者则由任务共享分支与任务特有分支组成,进一步融合多模态编码器提取的多模态特征。该模块通过自适应调整两条分支的参数,分别提取任务共享特征和任务特有特征,在实现跨任务知识共享的同时保留任务自身的特有信息。随后,通过动态融合机制整合两类特征,得到各个任务(包括驾驶员行为识别、情绪识别、交通环境识别与车辆行为识别)的最终识别结果。

2.2 多轴区域注意力网络
驾驶环境与驾驶员的多视角图像中通常包含大量与任务无关的特征,如路边广告牌、车内装饰物等。在多任务学习中,所提取特征的质量将直接影响任务间的协同效果。若能有效筛选出与任务相关的特征,将有助于在特征共享过程中实现信息互补;反之,则可能引发负迁移问题。为应对此挑战,本文设计了 MARNet(见图4)。该网络通过引入水平-垂直注意力机制与区域注意力机制,从多视角图像中提取与任务相关的关键特征,从而缓解由于无关特征引起的任务间负迁移问题。

水平-垂直注意力:设输入特征图为 ,其中 、 和 分别表示特征图的高度、宽度和通道数。水平-垂直注意力机制首先使用三个权重矩阵对输入特征图 进行线性变换,生成查询(Query)、键(Key)和值(Value)向量,分别记为 、 和 。随后,在特征图 的每个位置 上沿垂直和水平方向应用自注意力机制以整合相关特征,得到新的特征 和 ,其计算过程如下所示:
区域注意力:首先将特征图 划分为 个相互独立的区域,每个区域大小为 。这样,特征图被重构为 。随后,对 分别进行线性投影得到 、 和 。接着,为了提升计算效率,对 和 在第二维度执行池化操作,得到 和 ,并通过 与 之间的点积计算相似度矩阵,并为每个区域 选取最相似的 个区域,形成索引集合 。
最后,针对每个区域 及其最相似的 个邻域区域,计算区域级别的注意力。
2.3 双分支多模态嵌入模块
在多任务学习中,合理平衡任务共享特征与任务特有特征之间的协同作用至关重要。任务共享特征有助于在任务之间实现知识迁移,从而提升模型的泛化能力。然而,任务之间的差异可能引发负迁移问题。任务特有特征能够缓解任务间的冲突,降低负迁移的风险,但若过度依赖这类特征,则会削弱任务间的信息共享,限制模型的跨任务泛化能力 。为解决上述问题,本文设计了一种双分支多模态嵌入模块(见图5),该结构可同时提取任务共享特征与任务特有特征,并根据具体任务的需求自适应地平衡两者的权重。

双分支多模态嵌入模块由两个主要组成部分构成:任务共享分支与任务特有分支。为缓解任务间差异所导致的负迁移问题,任务特有分支负责从多模态输入中提取任务特有特征。如图5(a) 所示,该分支通过一维卷积与多头注意力机制建模通道维度上的全局-局部交互关系,能够根据不同任务需求动态调整各模态的重要性。另一方面,为在提取任务特有特征的同时促进任务间的知识共享,我们设计了任务共享分支,如图5(b) 所示,用于整合多模态信息并学习多任务通用的共享表示。
3. 实验结果
3.1与先进算法的比较
表1 展示了本文提出的 MMTL-UniAD 与现有先进算法在多个任务中的对比结果。我们参考 AIDE 数据集中的评估标准,根据多视角时序图像在特征提取阶段的处理方式,将对比方法划分为三类:2D 模型,2D+时序建模(将 2D 模型与序列模型结合),以及3D 模型。实验结果表明,MMTL-UniAD 在上述三种类别下均优于所有对比算法,在 mAcc 指标上实现了 4.10%–12.09% 的性能提升,并在四项任务中均取得最佳结果。特别是在驾驶员行为识别和车辆行为识别任务中,准确率分别提升了 4.64% 和 3.62%,充分验证了所提方法在多任务学习场景中的优越性与泛化能力。

消融实验
表2和表3展示了我们针对多任务学习的消融实验结果,实验共分为两组。第一组实验旨在评估驾驶员状态任务与交通环境任务之间的相互影响。如表 2 所示,当仅联合训练驾驶员状态相关任务而忽略交通环境任务时,驾驶员情绪识别和行为识别的准确率分别下降4.26%-4.45%;同理,若仅训练交通环境相关任务而排除驾驶员状态,交通情境与车辆行为识别的准确率会降低3.50%-4.37%。这些数据表明,从驾驶员状态任务中学到的特征有助于提升交通环境识别任务的性能,反之亦然,充分体现了联合学习策略在提高模型准确性与泛化能力方面的优势。
第二组实验旨在探究不同任务之间的相互促进作用。第一部分实验在单一任务上独立训练模型,第二部分则在移除其中一个任务的基础上,保留其余三个任务进行联合训练。如表 3 所示,单任务训练会导致所有任务的性能下降 3.98%–6.13%。此外,移除四个任务中的任意一个,也会使其余任务的准确率不同程度地降低。这些结果进一步验证了四个任务联合学习的有效性,表明各任务之间存在紧密的内在关联,联合建模有助于提升整体性能与泛化能力。

我们通过消融实验评估了 MMTL-UniAD 中 MARNet 与双分支多模态嵌入模块的独立贡献。具体而言,我们将 MARNet 替换为基础 VGG 网络,或将双分支嵌入模块简化为简单拼接操作。表4结果显示,这两个操作均会导致 mAcc 和四项任务的准确率全面下降。我们认为这一变化的主要原因在于替代的组件无法有效提取关键特征,使多模态特征中混入大量任务无关信息,且仅保留任务的共享特征,忽略了各任务特有特征的建模,进而削弱了任务间的协同效果,并加剧了负迁移现象。实验结果也进一步证明了这两个组件在多任务学习中的重要性和有效性。

总结
本文提出了一个统一的多模态多任务学习框架MMTL-UniAD,该框架利用多模态数据同时完成驾驶员情绪、驾驶员行为、交通环境与车辆行为四项识别任务。其核心创新在于多轴区域注意力网络和双分支多模态嵌入模块,能有效提取任务共享特征与任务特有特征,不仅增强了跨任务协同效应,还显著缓解了负迁移现象,从而在开源 AIDE 数据集上的所有四项任务中都取得了优异的表现。消融实验进一步表明,驾驶员状态与交通环境相关任务的联合学习可实现特征相互共享,从而显著提升任务识别精度。我们预期,MMTL-UniAD 及其关键组件将为 ADAS 场景下的多模态多任务学习研究提供有力基准,推动该领域开发更高效、更具适应性的智能辅助系统。
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com