复旦大学提出基于Mamba的轨迹预测模型DeMo: 将运动预测解耦为方向意图和动态状态
Abstract
准确的交通主体运动预测对于在动态变化环境中确保自动驾驶系统的安全性和效率至关重要。主流方法采用“一查询一轨迹”的范式,其中每个查询对应一个唯一的轨迹,用于预测多模态轨迹。尽管这种方法简单且有效,但由于缺乏对未来轨迹的详细表示,可能会导致次优结果,因为主体状态会随时间动态演变。为了解决这个问题,我们提出了DeMo框架,它将多模态轨迹查询解耦为两种类型:模式查询(mode queries),用于捕捉不同的方向意图;以及状态查询(state queries),用于跟踪主体随时间变化的动态状态。通过利用这种格式,我们分别优化了轨迹的多模态性和动态演化特性。随后,模式查询和状态查询结合起来,以获得对轨迹的全面而详细的表示。为实现这些操作,我们还引入了Attention(注意力机制)和Mamba技术的结合,用于全局信息聚合和状态序列建模,充分利用各自的优势。在Argoverse 2和nuScenes基准数据集上的大量实验表明,我们的DeMo在运动预测中达到了最先进的性能。
代码获取:https://github.com/fudan-zvg/DeMo
欢迎加入自动驾驶实战群
Introduction
运动预测能够使自动驾驶车辆预测周围主体的运动,并影响自车的行为,为自车的行动提供参考和条件。这对于维护安全性和可靠性至关重要,使得车辆能够理解驾驶环境的动态变化并做出经过计算的决策。该任务的挑战和复杂性来自于多种因素,包括不可预测的路况、交通参与者的不同运动模式,以及同时分析被观测主体状态和道路地图的必要性。
研究社区在驾驶场景表示和轨迹解码的范式上取得了显著进展。这些方法主要遵循了一种从检测中借鉴的模式,即“一查询一轨迹”的范式。该范式使用多个查询来表示不同的预测轨迹,覆盖了不同运动意图的可能性。尽管有效,但这些方法只能大致提供一个方向,并通过一次性方式收集周围环境来生成各种轨迹的路径点,忽视了轨迹与场景的详细关系。这种缺乏对轨迹的具体表示以及与周围环境和其他主体的时空交互,可能导致在不同时间步的准确性和一致性下降。
为了解决这个问题,我们提出了一个名为DeMo的新框架,提供了多模态轨迹的详细表示。具体而言,我们将预测查询解耦为两种类型:除了原来的运动模式查询(mode queries),用于捕捉不同的方向意图外,我们还引入了动态状态查询(state queries),用于跟踪未来轨迹中主体在不同时间步的动态状态。这种方法使我们能够在框架中实现全面的查询表示。模式查询和状态查询分别通过模式定位模块(Mode Localization Module)和状态一致性模块(State Consistency Module)进行处理。这些模块使查询能够与周围环境及彼此之间进行明确的交互,从而显著优化未来轨迹的方向精度和时间一致性。随后,通过我们的混合耦合模块(Hybrid Coupling Module),将两种类型的查询整合在一起,实现对未来轨迹的全面表示。由于轨迹状态具有顺序特性,Mamba特别适合用于建模动态状态的时间一致性。因此,我们在模块中结合了Attention和Mamba,以有效聚合全局信息并建模状态序列,充分利用这两种技术的优势。
3.Method
在本节中,我们介绍了DeMo框架,该框架利用解耦的模式查询和状态查询来预测未来轨迹中的方向意图和动态状态。我们还采用了结合Attention和Mamba的混合架构,并引入了两个辅助损失进行特征建模。
3.1 问题定义
给定高清地图(HD map)和驾驶场景中的主体,运动预测旨在为感兴趣的主体预测未来轨迹。高清地图由多个车道或交叉路口的折线组成,而主体是交通参与者,如车辆和行人。为了将这些元素转化为易于处理和学习的输入,我们采用了一种流行的向量化表示,参考文献。具体而言,地图
是通过将每条线段分割成若干较短的段生成的,其中、和分别表示地图折线的数量、分段数和特征通道。我们将主体的历史信息表示为