ICCV‘25港科大“先推理，后预测”：引入奖励驱动的意图推理，让轨迹预测告别黑箱！

转载于 2025-08-29 11:08:10 发布 · 96 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247676711&idx=1&sn=dab781d6eeeae8dbd774656ded57338b&chksm=cf7836682b603fc08bde6dd33bacb38147ae42a7b0e24b1c55beb289ab6601403190acfdeaff&scene=126&sessionid=0

来源 | 深蓝AI

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

本文只做学术分享，如有侵权，联系删文

导读

准确预测道路智能体的运动对于自动驾驶的安全性至关重要。当前，现有的数据驱动方法直接预测未来轨迹，缺乏对驾驶行为的充分考虑，限制了可解释性和可靠性。为此，本文引入了一种可解释的、奖励驱动的意图推理器来解决这一问题。实验结果表明，本文所提出的预测器能够生成高置信度、可靠的未来轨迹，同时与现有的最先进模型相比，实现了极具竞争力的性能。

论文链接：https://arxiv.org/abs/2507.12083

论文标题：Foresight in Motion: Reinforcing Trajectory Prediction with Reward Heuristics

论文作者：Muleilan Pei, Shaoshuai Shi, Xuesong Chen, Xu Liu, Shaojie Shen

—

介绍

轨迹预测是高级自动驾驶系统的关键组成部分，它连接了上游感知与下游规划模块。鉴于驾驶行为的固有不确定性和多模态性质，准确预测周围交通智能体的运动需要推理未知的意图。

大多数现有的数据驱动的运动预测模型利用模仿方法，它们要么直接回归轨迹，要么根据训练数据集的数据分布匹配对端点进行分类。然而，这些方法往往缺乏对驾驶行为的充分考虑，这限制了可解释性和可靠性。尽管许多方法在基准指标上实现了强大的性能，但是很少有方法显式地推理未来的意图，这给现实世界应用中生成可解释且鲁棒的多模态预测结果带来了关键的瓶颈。

为此，本文提出了“先推理，后预测”的策略，其中行为意图推理提供关键的先验引导，以促进准确且可靠的多模态运动预测。以超车场景为例：与没有进行推理的直接预测相比，能够提前显式地推理超车和车道保持意图的模型可以生成更可靠的预测结果，如图1所示。

图1｜传统的运动预测流程与本文所提出的运动预测流程的比较

本文探索了应用强化学习范式来建模自动驾驶场景中智能体行为推理的可行性。本文将该任务表述为马尔可夫决策过程（MDP），并且相应地定义目标智能体的意图。为了平衡性能和计算效率，本文构建了一个网格级图来表示场景布局，其中意图被定义为在离散网格世界上的一系列决策，类似于传统RL背景下的规划。本文将意图序列称为基于网格的推理遍历（GRT）。然而，采用RL进行轨迹预测的一项根本挑战在于对奖励进行建模，这是因为智能体的意图仍然是未知的。

为了克服这项挑战，本文提出了一种基于最大熵逆强化学习（MaxEntIRL）的奖励驱动的意图推理器。该框架首先通过IRL从演示和相关的驾驶环境中学习智能体特定的奖励分布。学习到的奖励分布作为一种紧凑的表示，它捕获智能体的观测行为和潜在意图。本文利用这些推理的奖励作为启发式，然后执行策略推演，对多个合理的GRTs进行采样，并且提取其相应的意图特征，为轨迹预测提供了先验引导，从而提高了预测准确性和置信度。

此外，为了进一步增强场景上下文的特征提取，本文引入了一种新的以查询为中心的IRL框架，称为QIRL，它将IRL与基于查询的编码机制相结合。QIRL高效且灵活地将矢量化场景上下文特征聚合到空间网格类状标记中，以促进结构化推理。通过这种稠密的网格表示，本文使用一个辅助的占用网格地图（OGM）预测头来增强所提出的模型，它能够对场景中每个智能体的未来时空占用进行预测。该辅助任务通过捕获智能体之间的未来交互，有效地增强了特征融合过程，从而提高了整体预测性能（如表格7所示）。

最后，为了充分利用意图推理器提供的特征，本文开发了一种分层的DETR类轨迹解码器。无锚点轨迹标记首先生成基于GRT派生特征的轨迹提议，然后作为最终轨迹解码的初始化锚点。鉴于轨迹状态的固有顺序性以及用于长期结构化动态建模的选择性状态空间模型（Mamba）的最新进展，本文结合了一种双向变体Bi-Mamba，以有效地捕获轨迹状态的顺序依赖关系。这种增强显著地提高了预测准确性和置信度（如表格6所示）。

本文的主要贡献总结如下：

1）本文引入了一种“先推理，后预测”的策略，从规划的角度重新思考轨迹预测任务；

2）本文提出了一种用于运动预测的奖励驱动的意图推理器，它具有一个QIRL模块，该模块在以查询为中心的框架中集成了MaxEnt IRL范式和矢量化上下文表示；

3）本文开发了一种具有双向选择性状态空间模型（Bi-Mamba）的分层DETR类解码器，以提高预测准确性和置信度；

4）本文所提出的方法显著提高了预测置信度，并且在Argoverse和nuScenes运动预测基准上实现了极具竞争力的性能，超越了其它最先进的模型。

—

方法

2.1 问题表述

标准轨迹预测任务的目标是在给定的驾驶环境下, 预测目标智能体在时间范围内的未来位置。本文对场景输入采用矢量化表示, 包括历史观测状态 , 其中表示场景中智能体数量, 表示过去的时间戳数量, 捕获位置、速度、朝向等运动属性, 以及高精地图信息 , 其中和分别对应车道中心线和车道段的数量, 表示相关的车道属性。

本文方法采用了以目标为中心的坐标系, 其中所有输入元素都通过平移和旋转操作归一化到目标智能体的当前状态。鉴于运动意图的固有不确定性, 预测器的任务是提供条未来轨迹 , 以及相应的概率。

2.2框架概述

如图2所示，本文所提出的运动预测方法采用了一种编码器-解码器结构，该结构包括以查询为中心的场景上下文编码器、Mamba增强的分层轨迹解码器和奖励驱动的意图推理器。

图2｜所提出框架的概览

首先，本文以矢量化格式表示驾驶环境，并且利用智能体和地图编码器来提取场景特征。然后，这些融合的特征通过交叉注意力机制聚合成空间网格标记。随后，在QIRL模块中，利用基于网格的MaxEnt IRL算法来推理奖励分布，从而通过策略推演在二维网格地图上推理出多个合理的意图序列（即GRTs）。此外，本文还结合了时空占用网格地图（S-T OGM）的密集预测头，以建模智能体之间的未来交互。最后，本文引入了一种分层的DETR类轨迹解码器，它生成了轨迹提议，这些轨迹提议被进一步聚类和细化，以生成多模态未来轨迹，并且由Bi-Mamba架构进行增强。

2.3以查询为中心的上下文编码

给定矢量化智能体表示和地图表示，首先将它们标记为单独的特征集合。

具体而言，本文使用一个智能体编码器（一个简单的 1-D CNN 模型）来获得智能体特征。对于地图编码器，本文采用 PointNet 类网络来提取静态地图特征。然后连接这些生成的智能体特征和地图特征以构成上下文标记，然后使用自注意力模块来增强特征融合。

由于推理过程依赖于网格级图表示，本文引入了可学习的网格形状的查询来集成场景特征，其中和定义了 BEV 平面的空间维度。

在网格位置处的每个查询对应于分辨率为的现实世界中的特定区域。然后，本文使用具有 2-D 空间可学习相对位置嵌入的平坦化网格查询，以通过交叉注意力机制来聚合上下文标记。

2.4奖励驱动的意图推理

给定使用上下文特征更新的网格标记，本文首先通过所提出的QIRL框架来生成奖励分布，该框架将传统的基于网格的MaxEnt IRL算法应用于以查询为中心的范式中。

QIRL：在 QIRL 框架中, 每个网格都作为一个状态, 其相应的查询表示上下文特征。本文使用的 CNN 层堆栈来聚合网格标记的特征, 以建立从驾驶上下文到奖励的非线性映射。未来的轨迹以分辨率进行量化, 以构成专家演示状态, 其中还包括捕获长期信息的路径。随后, 应用 MaxEnt-IRL 算法来获得收敛的奖励分布以及最优策略。

然后, 根据奖励启发式引导的策略进行推演。本文在网格图上并行地执行次推演, 生成多个合理的 GRTs 作为意图序列 , 其中表示规划时间范围。为了更好地捕获多模态未来分布, 本文设置。然后根据采样的 GRT 来提取网格标记：对于采样的 GRT 中与网格单元状态相关联的每个位置 , 在个步骤上顺序地选择对应的网格标记。这些网格标记构成推理标记。 GRT 位置和相关的推理标记作为信息性行为意图先验, 用于引导后续的运动预测。

辅助的 S-T OGM 预测头：本文利用网格形状的稠密表示, 引入了辅助的 S-T OGM 预测头来建模智能体之间的未来交互, 从而增强场景上下文特征的融合和聚合。本文以二进制形式表示占用地图, 其中 BEV 中占用的网格单元设置为 1, 未占用的单元设置为 0。 OGM 生成器将融合的网格标记和奖励作为输入, 并且使用 U-Net 类架构在未来的时间戳上生成 OGMs。

2.5Mamba增强的轨迹解码

给定个合理的推理先验，首先使用 DETR 类轨迹生成器来生成条轨迹作为提议。使用简单的 MLP 块分别对 GRT 位置和推理标记进行编码，然后通过基于 MLP 的特征融合网络对它们进行连接和处理，以构成最终的推理标记。接着，本文引入了一种无锚点可学习轨迹提议查询，以交叉注意来自意图推理器的先验特征。然后，该提议查询通过具有 MLP 块的回归头解码为个轨迹提议。本文应用 K-means 算法将这些轨迹提议聚类为个多模态轨迹提议。随后，本文使用基于锚点的轨迹细化，以进一步提高轨迹查询预测性能。每个轨迹提议都作为显式的锚点先验，被重新编码为轨迹查询，它通过类似于用于轨迹提议生成的 DETR 类架构来检索原始上下文特征。这种分层的无锚点提议生成以及基于锚点的细化过程生成了一个轨迹查询，该查询集成了奖励驱动的意图和详细的场景上下文。

Bi-Mamba 解码器： 由于轨迹标记在时间和空间域中均包含重要的序列属性，因此本文采用选择性状态空间模型来捕获一系列轨迹查询中的耦合关系，这是受到 Mamba 架构在序列建模中最近取得成功的启发。

为了更好地利用 Bi-Mamba 结构的双向能力，本文设计了一种可学习的双模式查询，其中包含两个分类 (CLS) 标记。这些标记 CLS1 和 CLS2 添加在轨迹查询的前面和后面，如图 3 所示。

图3｜Bi-Mamba增强的解码过程

这些标记分别聚合了后向和前向的特征，与使用单个分类标记的单向Mamba相比，Bi-Mamba提供了更全面的融合。在Bi-Mamba处理之后，通过逐元素相加将两个CLS标记相结合以实现特征融合。然后，模式自注意力模块实现了模式之间的交互，从而进一步增强了预测的多模态性。

最后，使用softmax函数对模式标记进行分类以生成概率，并且使用回归头对顺序轨迹标记进行解码以生成轨迹偏移。

通过将轨迹提议与其相关的偏移量相加以获得最终预测的轨迹 ,如下所示:

（1）

2.6训练目标

整个流程涉及多个训练目标。奖励驱动的意图推理器包括两个子任务目标：QIRL 和 OGM 生成器。QIRL 目标采用损失，而 OGM 生成器使用焦点二元交叉熵 (BCE) 损失，表示为。

对于轨迹解码器，训练目标包括回归损失和分类损失。为了优化轨迹回归，本文将 Huber 损失应用于轨迹提议和优化的轨迹。此外，为了解决模式崩溃问题，本文采用了一种赢者通吃的策略，它仅选择位移误差最小的候选进行反向传播。对于模式分类，本文采用了最大间隔损失。

总体损失集成了这些组成部分，并且能够以端到端的方式进行优化：

（2）

其中，、和是平衡每个训练目标的超参数。

—

实验和结果

3.1 实验设置

数据集：本文使用各种大规模公开数据集Argoverse 1、Argoverse 2和nuScenes来训练和评估所提出的方法。所有数据集均提供丰富的高精地图信息。Argoverse 1数据集包括来自迈阿密和匹兹堡的1000多个小时的驾驶数据，分别有大约206k、39k和78k个序列用于训练、验证和测试。

指标：本文遵循标准指标来评估预测性能，包括漏检率（MRK）、最小平均位移误差（minADEK）、最小终点位移误差（minFDEK）、布雷尔最小终点位移误差（brier-minFDEK）和布雷尔分数。

3.2与最先进方法的比较

本文在Argoverse 1、Argoverse 2和nuScenes运动预测数据集上对所提出的方法与最先进的方法进行了全面的比较。为简洁起见，本文将所提出的方法称为FiM。

Argoverse 1：在Argoverse 1测试集划分上的定量结果如表格1所示。

表格1｜在Argoverse 1运动预测排行榜上的性能比较

本文将FiM与在这个具有挑战性的基准上评估的几种具有代表性的方法进行了比较。根据单模型结果，与强大的基线相比，FiM实现了极具竞争力的性能，包括HiVT和Scene-Transformer等直接轨迹预测模型以及DSP和DenseTNT等基于目标的模型。FiM在布雷尔分数、Brier-minFDE6和MR6上表现出色，突出了其强大的预测能力。

Argoverse 2：为了进一步验证本文的意图推理策略的有效性，本文引入了一个基于Argoverse 2验证集划分的定制评估基准。

本文将FiM与Argoverse 2排行榜上表现最佳的两个开源模型DeMo和QCNet进行了比较。如表格2所示，所有FiM变体均超越了这两个强大的基线，这表明意图推理模块取得了显著的性能提升。此外，研究结果进一步表明，长期意图监督显著提高了预测置信度，有助于更可靠的轨迹预测。

表格2｜在定制化的Argoverse2验证集上的性能比较

nuScenes：本文还在nuScenes数据集上评估了FiM，如表格3所示。

表格3｜在nuScenes预测排行榜上的性能比较

本文模型在此预测基准上实现了最佳性能，超越了当前排行榜上的所有方法，并且进一步验证了本文所提出的框架在解决复杂运动预测挑战方面的鲁棒性和先进能力。

3.3消融研究

本文在Argoverse验证集上进行深入的消融研究，以评估所提出的方法中关键组件的有效性。本实验保持所有实验设置的一致性，以便进行公平的比较。

奖励启发式的影响：本文首先通过从流程中删除推理分支来验证奖励驱动的意图推理器的有效性。如表格4所示，与完整模型相比，vanilla架构的性能显著下降，这突显了推理过程对于整体性能的关键贡献。

表格4｜对于奖励驱动的推理策略的消融研究

此外，通过将QIRL模块替换为用于特征提取的交叉注意力模块，以探索QIRL模块的具体影响。表格4中的结果表明，本文的QIRL模块在很大程度上优于这种替代方案，这表明QIRL可以有效地获取基本意图先验，并且提供有益于后续运动预测的信息引导。

OGM和细化的影响：本文通过对每个模块进行消融研究，进一步评估了辅助的时空OGM模块和细化的影响，如表格5所示。

表格5｜对于OGM和细化模块的消融研究

这两个模块对最终性能都做出了重大贡献。特别地，来自OGM的性能提升证实了建模未来交互可以提高预测质量，这突出了意图推理对改进轨迹预测的重要性。

基于Mamba的解码器中组件的影响：本文对各种解码器组件进行了消融分析，以验证Mamba类结构相对于传统方法的优势。表格6中的结果突出了这种设计的优势。

表格6｜对于Mamba增强的解码器的消融研究

此外，本文还研究了所提出的双模式标记对分类的影响，并且将其与使用单模式标记的单向Mamba模型进行了比较。如表格7所示，Bi-Mamba模型展现出更好的性能，这得益于其前向-后向扫描机制，该机制有效地将轨迹特征融合为两个CLS标记，并且验证了这种设计的优势。

表格7｜Uni-Mamba和Bi-Mamba之间的比较

本文还研究了不同Mamba层深度的影响，如表格8所示。

表格8｜Mamba层深度的影响

结果表明，更深的层可能会引入不必要的计算开销，也可能因过拟合而降低性能，这突显了最优的层配置对于实现强大性能的重要性。

3.4定性结果

本文展示了所提出方法在Argoverse验证集中各种交通场景下的可视化结果，如图4所示。

图4｜模型在Argoverse验证集上的定性结果

这些定性结果突出了所提出的模型在生成准确、可行、多模态的未来轨迹方面的强大能力，这些未来轨迹在各种条件（包括复杂的交叉路口和长期预测场景）下与场景布局保持一致。

—

总结

本项工作从规划的角度重新定义了轨迹预测任务的概念，并且提出了“先推理，后预测”的策略。本文提出了一种可解释的奖励驱动的意图推理器，它在QIRL框架内设计，通过以查询为中心的流程将MaxEnt IRL范式与矢量化上下文表示相结合，从而有效地为后续轨迹生成提供了信息丰富的意图先验。此外，本文还引入了一种与Bi-Mamba结构集成的分层DETR类轨迹解码器，它可以捕获轨迹的顺序依赖关系，并且显著地提高预测准确性和置信度。

实验结果表明，本文所提出的推理增强的预测器具有生成高置信度、可靠的未来轨迹的强大能力（这些轨迹与场景布局保持一致），同时与现有的最先进模型相比实现了极具竞争力的性能。此外，本项工作还强调了意图推理在运动预测中的关键作用，证实了RL范式在建模驾驶行为方面的可行性，并且为轨迹预测的未来研究建立了一个有前景的基线模型。

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com