ADAS新范式!北理&清华MMTL-UniAD:多模态和多任务学习统一SOTA框架(CVPR‘25)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享北理工&清华最新的工作!MMTL-UniAD:辅助驾驶感知中多模态和多任务学习的统一框架(CVPR'25)。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『多任务学习』技术交流群

论文作者 | Wenzhuo Liu等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

高级驾驶辅助系统需要对驾驶员的心理/生理状态以及交通环境进行全面感知,但现有研究往往忽视了这些任务之间联合学习所带来的潜在优势。本文提出了一种统一的多模态多任务学习框架——MMTL-UniAD,该框架可同时识别驾驶员行为(如四处张望、交谈)、驾驶员情绪(如焦虑、愉快)、车辆行为(如变道、转向)以及交通环境(如拥堵、通畅)。本研究的关键挑战在于如何缓解多任务联合学习过程中产生的负迁移现象。该现象是多任务学习中核心难点,指由于任务间存在差异或冲突,导致某些任务在联合训练下的性能反而低于其单独训练时的表现。为解决这一问题,我们在框架中引入两个核心组件:多轴区域注意力网络和双分支多模态嵌入模块。前者通过多重注意力机制提取与任务高度相关的关键特征,缓解由无关特征带来的负迁移问题;后者采用双分支结构,在提取任务共享特征的同时保留任务特有特征,并通过自适应调节机制平衡两类特征的权重,在增强跨任务知识迁移的同时,有效减少任务间冲突。我们在公开数据集 AIDE 上对所提方法进行了验证,结果表明 MMTL-UniAD 在各项任务上均实现了 SOTA性能,充分验证了该方法的有效性以及多任务学习在高级辅助驾驶系统中必要性。

  • 论文题目:MMTL-UniAD: A Unified Framework for Multimodal and Multi-Task Learning in Assistive Driving Perception

  • 论文链接:https://arxiv.org/pdf/2504.02264

  • 代码链接:https://github.com/Wenzhuo-Liu/MMTL-UniAD

1. 引言

在过去十年中,高级驾驶辅助系统(ADAS)通过监测驾驶员状态和周围交通环境显著提高了驾驶安全性。尽管如此,全球每年仍有约135万人死于交通事故,其中超过65%的事故与驾驶员异常的心理或生理状态有关 。因此,准确识别驾驶员状态对于ADAS至关重要,但由于驾驶员状态与交通环境之间复杂的因果关系,这一任务仍面临巨大挑战(见图1)。例如,交通拥堵可能会引发驾驶员的焦虑情绪,进而影响其驾驶行为 ;在通过交叉路口或者即将变道时,驾驶员往往会环顾四周。

目前大多数针对驾驶员状态和交通环境识别的研究都集中于单一任务,例如仅关注驾驶员行为识别、情绪识别或交通环境分析。然而,这些方法忽视了任务间的内在关联,从而限制了跨任务学习的潜力。实际上,在真实驾驶场景中,这些任务往往相互影响、彼此关联。以变道行为为例,它不仅取决于当前道路的拥堵状况,还与驾驶员的实时状态密切相关。

多任务学习通过挖掘相关任务之间的潜在关联,有助于整体提升各任务的性能表现。然而,当任务间相关性较弱时,联合学习容易引发负迁移现象,反而导致部分任务性能下降。因此,现有研究多聚焦于相关性较强的任务组合,例如将车道线识别、目标检测与可行驶区域分割等视觉任务结合,以增强对交通环境的理解,或联合学习驾驶员行为、情绪与意图识别等任务,以更全面地反映驾驶员的内部状态。尽管这些研究利用任务间的高度相关性在一定程度上缓解了负迁移的风险,但却忽视了驾驶员相关任务与交通环境识别任务之间的内在联系,导致驾驶员状态与环境信息难以实现有效融合,从而限制了ADAS对驾驶场景的全面理解能力。

为应对上述挑战,本文提出了MMTL-UniAD,这是一个用于辅助驾驶感知的多模态多任务统一框架。该框架利用多模态数据,实现对驾驶员行为、情绪、交通环境以及车辆行为的同步识别。首先,我们设计了一个多轴区域注意力网络,用于处理来自驾驶环境与驾驶员的多视角图像。该网络通过水平-垂直双向的注意力机制提取全局上下文信息,并进一步利用区域注意力提取兴趣触发特征,从中筛选出与任务高度相关的语义信息,从而缓解任务间的负迁移影响。此外,我们基于软参数共享策略,引入了一种双分支多模态嵌入模块,同时提取任务共享特征与任务特有特征,并自适应地调节两类特征之间的权重,在促进任务间正向迁移与信息共享的同时,保留各任务的特性,从而缓解多任务冲突。我们在公开数据集 AIDE 上对所提方法进行了验证,实验结果表明,MMTL-UniAD在多个任务上均优于现有最先进方法。

2. 算法详解

2.1 模型介绍

MMTL-UniAD 的整体框架(见图2)主要包括两个核心模块:多模态编码器和双分支多模态嵌入模块。前者由多轴区域注意力网络(MARNet)与三维卷积神经网络(3D-CNN)组成。其中,MARNet 通过多重注意力机制,从多视角图像中提取关键特征;而 3D-CNN 用于从驾驶员姿势和手势关节点数据中提取时空特征。后者则由任务共享分支与任务特有分支组成,进一步融合多模态编码器提取的多模态特征。该模块通过自适应调整两条分支的参数,分别提取任务共享特征和任务特有特征,在实现跨任务知识共享的同时保留任务自身的特有信息。随后,通过动态融合机制整合两类特征,得到各个任务(包括驾驶员行为识别、情绪识别、交通环境识别与车辆行为识别)的最终识别结果。

2.2 多轴区域注意力网络

驾驶环境与驾驶员的多视角图像中通常包含大量与任务无关的特征,如路边广告牌、车内装饰物等。在多任务学习中,所提取特征的质量将直接影响任务间的协同效果。若能有效筛选出与任务相关的特征,将有助于在特征共享过程中实现信息互补;反之,则可能引发负迁移问题。为应对此挑战,本文设计了 MARNet(见图4)。该网络通过引入水平-垂直注意力机制与区域注意力机制,从多视角图像中提取与任务相关的关键特征,从而缓解由于无关特征引起的任务间负迁移问题。

水平-垂直注意力:设输入特征图为  ,其中 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值