二段式端到端新SOTA！港科大FiM：从Planning的角度重新思考轨迹预测（ICCV‘25）

自动驾驶之心

于 2025-07-27 00:01:38 发布

阅读量362

点赞数 8

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/CV_Autobot/article/details/149681949

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享港科技、滴滴&卓驭ICCV 2025中稿的最新工作！从Planning的视角重新思考轨迹预测，实现二段式端到端新SOTA。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Muleilan Pei等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

预测行驶中的交通参与者的轨迹运动，对于确保自动驾驶系统的安全性而言，既是一项重大挑战，也是一项至关重要的需求。与大多数现有的、直接预测未来轨迹的数据驱动方法不同，我们从规划（planning）的视角重新思考这一任务，提出一种“先推理，后预测（First Reasoning, Then Forecasting）”的策略，该策略显式地将行为意图作为轨迹预测的空间引导。为实现这一目标，进一步引入了一种可解释的、基于奖励的意图推理器（intention reasoner），其建立在一种新颖的以查询为中心的逆强化学习（query-centric Inverse Reinforcement Learning, IRL）框架之上。我们的方法首先将交通参与者和场景元素编码为统一的向量化表示，然后通过以查询为中心的范式聚合上下文特征。进而推导出一个奖励分布（reward distribution）——一种紧凑但信息丰富的表示，用于刻画目标参与者在给定场景上下文中的行为。在该奖励启发式（reward heuristic）的引导下，我们进行策略 rollout，以推理多种可能的意图，从而为后续的轨迹生成提供有价值的先验信息。最后开发了一种集成双向选择性状态空间模型（bidirectional selective state space models）的分层DETR-like解码器，以生成精确的未来轨迹及其对应的概率。在大规模的Argoverse和nuScenes运动预测数据集上进行的大量实验表明，我们的方法显著提升了轨迹预测的置信度，在性能上达到了与当前最先进方法相当甚至更优的水平。

论文链接：https://arxiv.org/abs/2507.12083

简介

轨迹预测是自动驾驶系统的关键组成部分，它连接了上游的感知模块和下游的规划模块。准确预测周围交通参与者未来的运动，需要对未知的意图进行推理，因为驾驶行为本质上具有不确定性和多模态特性。

大多数现有的数据驱动运动预测模型采用模仿学习（imitative）方法，要么直接回归轨迹，要么基于训练数据集中的数据分布对终点进行分类。然而，这些方法通常对驾驶行为的考虑不足，限制了其可解释性和可靠性。尽管许多方法在基准测试指标上表现出色，但很少有方法能显式地对未来的意图进行推理，这在现实应用中生成可解释且鲁棒的多模态预测时，形成了一个关键瓶颈。

相比之下，人类驾驶员通常以分层的方式操控车辆，先做出高层次决策（例如变道或超车），再执行具体的运动策略。我们可以将自车（ego vehicle）的预测模块视为在为其他参与者进行规划，前提是假设道路使用者的行为是理性的。尽管轨迹预测与规划之间存在内在联系，但很少有研究探索来自规划领域的洞见。受这些观察的启发，我们提出了一个关键问题：能否从规划的视角来处理轨迹预测任务，并通过引入意图推理能力来加以增强？

为此，我们提出一种“先推理，后预测（First Reasoning, Then Forecasting）”的策略，其中行为意图推理为准确且可信的多模态运动预测提供了关键的先验指导。以超车场景为例：一个能够提前显式推理出“超车”和“保持车道”两种意图的模型，相比没有进行推理而直接预测的模型，能够生成更可靠的预测结果，如图1所示。

此外，结合更长期的意图推理可以进一步提升预测的置信度（见表2）。

然而，由于驾驶场景固有的复杂性，仅依赖手工设计的规则或预定义的规划器来进行未来意图推理仍然具有挑战性。一种有前景的替代方案是利用大型推理模型（Large Reasoning Models, LRMs）（如OpenAI-o1）在轨迹预测器中实现意图推理。然而，它们巨大的计算需求使其在车载驾驶系统中不切实际。幸运的是，LRMs的最新进展表明，强化学习（RL）技术在数学和编程等领域展现了卓越的推理能力，这引发了一个有趣的问题：能否利用基于RL的范式来推理轨迹预测中参与者的未来意图？

在这方面，我们探索了将RL范式应用于建模自动驾驶场景中参与者行为推理的可行性。我们将任务形式化为一个马尔可夫决策过程（Markov Decision Process, MDP），并据此定义目标参与者的行为意图。为了在性能和计算效率之间取得平衡，我们构建了一个网格级图（grid-level graph）来表示场景布局，其中意图被定义为在离散网格世界中的一系列决策，类似于传统RL语境中的“规划”。本文将这种意图序列称为基于网格的推理遍历（Grid-based Reasoning Traversal, GRT）。

然而，将RL应用于轨迹预测的一个根本性挑战在于如何建模奖励（reward），因为参与者的意图是未知的。

为克服这一挑战，我们提出了一种基于最大熵逆强化学习（Maximum Entropy Inverse Reinforcement Learning, MaxEnt IRL）的奖励驱动意图推理器。该框架首先通过IRL，从专家示范（demonstrations）和相关驾驶上下文中学习参与者特定的奖励分布。所学习到的奖励作为一种紧凑的表示，捕捉了参与者的可观测行为及其潜在意图。利用这些推断出的奖励作为启发式信息，我们随后进行策略rollout，以采样多种可能的GRT，并提取其对应的、以意图为指导的特征，从而为轨迹预测提供先验指导，进而提高预测的准确性和置信度。

此外，为了进一步增强从场景上下文中提取特征的能力，提出了一种新颖的以查询为中心的IRL框架（Query-centric IRL, QIRL），该框架将IRL与一种基于查询的编码机制相结合。QIRL能够高效且灵活地将向量化场景上下文特征聚合到类似空间网格的token中，便于进行结构化推理。

通过这种密集的网格表示，我们在模型中增加了一个辅助的占用网格图（Occupancy Grid Map, OGM）预测头，该模块能够对场景中每个参与者未来的时空占用进行密集预测。这一辅助任务通过捕捉参与者之间的未来交互，有效增强了特征融合过程，从而提升了整体预测性能（见表7）。

最后为了充分利用意图推理器提供的特征，开发了一种分层的DETR-like轨迹解码器。一个无锚点（anchor-free）的轨迹token首先基于GRT推导出的特征生成初始提议（proposals），这些提议随后作为最终轨迹解码的初始化锚点。考虑到轨迹状态固有的序列性质，以及选择性状态空间模型（Mamba）在长时程、结构化动态建模方面的最新进展，引入了一种双向变体——Bi-Mamba，以有效捕捉轨迹状态的序列依赖关系。这一增强显著提升了预测的准确性和置信度（见表6）。

总结来说，本文的主要贡献如下：

提出了一种“先推理，后预测”的策略，从规划的视角重新思考轨迹预测任务。
为运动预测提出了一种全新的奖励驱动意图推理器，其中QIRL模块在以查询为中心的框架下，集成了MaxEnt IRL范式和向量化上下文表示。
开发了一种集成双向选择性状态空间模型（Bi-Mamba）的分层DETR-like解码器，以提高预测的准确性和置信度。
的方法显著提升了预测置信度，并在Argoverse和nuScenes运动预测基准测试上取得了极具竞争力的性能，超越了其他最先进的模型。

算法详解

问题定义

标准轨迹预测任务的目标是，在给定驾驶上下文的情况下，预测目标参与者在未来时间范围内的位置。我们采用向量化表示作为场景输入，包括历史观测状态，其中表示场景中的参与者数量，表示过去的时间戳数量，捕捉位置、速度、航向等运动特征，以及高精地图（HD map）信息，其中和分别对应车道中心线和车道段的数量，表示相关的车道属性。

我们的方法采用以目标为中心的坐标系，通过平移和旋转操作，将所有输入元素归一化到目标参与者当前的状态。鉴于运动意图的内在不确定性，预测器的任务是提供条未来的轨迹，以及对应的概率。

框架概述

如图2所示，我们的运动预测方法采用了一种编码器-解码器结构，该结构包含一个以查询为中心的场景上下文编码器、一个由Mamba增强的分层轨迹解码器，以及一个奖励驱动的意图推理器。

首先以向量化格式表示驾驶上下文，并利用参与者和地图编码器提取场景特征。然后，通过交叉注意力机制将这些融合后的特征聚合到空间网格token中。接着，在QIRL模块中，利用一种基于网格的MaxEnt IRL算法推断奖励分布，从而通过策略rollout在2D网格地图上推理出多种可能的意图序列（即GRTs）。此外，我们引入了一个用于时空占用网格图（S-T OGM）的密集预测头，以建模参与者之间的未来交互。最后，我们引入了一种分层的DETR-like轨迹解码器，该解码器生成轨迹提议，这些提议经过进一步的聚类和优化，最终生成由Bi-Mamba架构增强的多模态未来轨迹。

以查询为中心的上下文编码

给定向量化的参与者表示和地图表示，我们首先将它们分别标记化为独立的特征集。具体来说，我们使用一个参与者编码器——一个简单的1D CNN模型——来获得参与者特征。对于地图编码器，我们采用类似PointNet的网络来提取静态地图特征。

然后，将得到的参与者和地图特征连接起来，形成上下文token ，并随后通过一个自注意力块来增强特征融合。

由于推理过程依赖于网格级图表示，我们引入了可学习的网格状查询来整合场景特征，其中和定义了鸟瞰图（BEV）平面的空间维度。每个位于网格位置的查询对应现实世界中的一个特定区域，分辨率为。然后，我们使用带有2D空间可学习相对位置编码的展平网格查询，通过交叉注意力机制来聚合上下文token。

奖励驱动的意图推理

在用上下文特征更新了网格token之后，我们首先通过我们的QIRL框架生成奖励分布，该框架在以查询为中心的范式下，调整了传统的基于网格的MaxEnt IRL算法。MaxEnt IRL通常被定义为一个有限的马尔可夫决策过程（MDP）模型，包含状态空间、动作空间和转移模型。其目标是恢复环境的奖励分布，以生成一种策略，该策略通过最大化示范数据的对数似然，同时遵循最大熵原则，来模仿专家示范。示范由离散状态序列组成，奖励通常被公式化为环境特征的组合。学习过程涉及在每次奖励迭代内进行内循环的前向RL过程，直到损失收敛。

QIRL。 在我们的QIRL框架中，每个网格充当一个状态，其对应的查询表示上下文特征。我们使用1×1 CNN层的堆叠从网格token中聚合特征，以建立从驾驶上下文到奖励的非线性映射。未来的轨迹被量化到分辨率以形成专家示范状态，如果可用，还可以包含路径以捕捉长期信息。随后，应用MaxEnt IRL算法来推导出收敛的奖励分布以及一个最优策略。

然后基于由奖励启发式诱导的策略执行rollout。我们在网格地图上并行执行次rollout，产生多个可能的GRTs作为意图序列，，其中表示规划范围。为了更好地捕捉多模态未来分布，我们设置。然后根据采样的GRT提取网格token：对于采样GRT中与网格单元状态关联的每个位置，在步中依次选择对应的网格token 。这些网格token构成了推理token 。GRT位置及其相关的推理token 作为有价值的行为意图先验，用于指导后续的运动预测。

辅助的S-T OGM预测头。 利用网格状的密集表示，我们引入了一个辅助的S-T OGM预测头来建模参与者之间的未来交互，从而增强场景上下文特征的融合和聚合。我们将占用图以二进制形式表示，其中在未来的个时间戳上鸟瞰图（BEV）中被占据的网格单元被设为1，未被占据的单元被设为0。我们的OGM生成器以融合后的网格token 和奖励作为输入，并使用类似U-Net的架构生成个未来时间戳上的OGM。

Mamba增强的轨迹解码

给定个可能的推理先验，我们首先使用一个DETR-like的轨迹生成器生成条轨迹作为提议。我们分别通过简单的MLP块对GRT位置和推理token 进行编码，然后通过基于MLP的特征融合网络进行连接和处理，形成最终的推理token 。

接下来，我们引入一个anchor-free的可学习轨迹提议查询，使其通过交叉注意力机制关注来自意图推理器的先验特征。然后，该提议查询通过一个由MLP块组成的回归头被解码为个轨迹提议。我们应用K-means算法将这些提议聚类为个多模态轨迹提议。随后，我们使用一种基于锚点的轨迹优化方法（如许多现有的运动预测器中所用），以进一步提升轨迹查询的预测性能。每个轨迹提议作为显式的锚点先验，被重新编码为轨迹查询，该查询通过类似DETR的架构检索原始上下文特征，该架构与轨迹提议生成中使用的架构类似。这种分层的无锚点提议生成与基于锚点的优化过程相结合，最终得到一个轨迹查询，该查询集成了奖励驱动的意图和详细的场景上下文。

Bi-Mamba解码器。 由于轨迹token 在时间和空间域都具有显著的序列特性，我们采用一种选择性状态空间模型来捕捉轨迹查询序列内的耦合关系，这受到Mamba架构在序列建模方面近期成功的启发。具体来说，我们采用一个Bi-Mamba模型来处理轨迹token，利用其双向扫描机制来实现更全面的信息捕获。在这个由Bi-Mamba增强的解码过程中，我们预测轨迹偏移量和每个假设的概率。

为了更好地利用Bi-Mamba结构的双向能力，我们设计了一个可学习的双模态查询，其中包含两个分类（CLS）token。如图3所示，这两个token（CLS1和CLS2）分别被附加在轨迹查询的前面和后面。这两个token分别聚合了后向和前向特征，与使用单个分类token的单向Mamba相比，实现了更全面的融合，这一点在我们的消融实验结果中得到了验证（见表7）。在Bi-Mamba处理之后，两个CLS token通过逐元素相加进行特征融合。然后，一个模态自注意力模块使不同模态之间能够交互，进一步增强了预测的多模态性。最后，模态token通过softmax函数进行分类以生成概率，而序列轨迹token则通过回归头解码以生成轨迹偏移量。

最终的预测轨迹通过将轨迹提议与其对应的偏移量相加得到，如下所示：

训练目标

我们的整个流程包含多个训练目标。奖励驱动的意图推理器包括两个子任务目标：QIRL和OGM生成器。QIRL目标采用，而OGM生成器（记为）则使用focal BCE损失。

对于轨迹解码器，训练目标包括回归损失和分类损失。为了优化轨迹回归，我们对轨迹提议和优化后的轨迹都应用Huber损失。此外，为了解决模态坍塌（mode collapse）问题，我们采用了一种“胜者通吃”（winner-takes-all）策略（在类似工作中常用），其中仅选择位移误差最小的候选者进行反向传播。对于模态分类，我们采用最大间隔损失（max-margin loss），遵循的方法。

整体损失集成了这些组件，可以进行端到端的优化：

其中、和是用于平衡每个训练目标的超参数。

实验结果分析

数据集（Datasets：Argoverse 1、Argoverse 2和nuScenes。

与SOTA对比

我们在Argoverse 1、Argoverse 2和nuScenes运动预测数据集上，对我们的方法与最先进的方法进行了全面的比较。为简洁起见，我们将我们的方法简称为FiM（Foresight in Motion）。

Argoverse 1。表1展示了在Argoverse 1测试集上的定量结果。我们将我们的FiM与在此具有挑战性的基准上评估的几个代表性已发表方法进行了比较。根据单模型结果（上半部分），FiM相较于强大的基线方法（包括直接轨迹预测模型如HiVT和SceneTransformer，以及基于目标的模型如DSP和DenseTNT）都取得了极具竞争力的性能。FiM在Brier分数、brier-minFDE6和MR6方面表现尤为出色，突显了其强大的预测能力。

我们还应用了模型集成技术来进一步提升整体性能。集成结果（下半部分）显示出显著的性能提升，表明了我们所提出框架的巨大潜力和上限能力。与HPNet和Wayformer等其他领先的已发表方法相比，FiM在各项评估指标上均保持了有竞争力的性能，尤其是在Brier分数上表现突出。这一结果强调了我们通过推理增强的预测器能够有效地生成更可靠、更自信的预测。

Argoverse 2。为了进一步验证我们意图推理策略的有效性，我们基于Argoverse 2的验证集构建了一个定制的评估基准。具体来说，任务要求预测前30个未来位置，而在训练期间，模型可以将后续的30个位置专门用作辅助的意图监督信号。值得注意的是，所有模型在训练轨迹生成时，其监督信号都严格限定在前30个未来位置。这种设置模拟了实际应用中长期路径可用于意图学习的场景。鉴于我们提出的QIRL模块对监督格式（无论是轨迹还是路径）是无感的，我们开发了三个模型变体，它们在GRT训练中引入了不同时间范围的未来监督。这些变体分别记为GRT-S、GRT-M和GRT-L，对应的推理模块分别使用30、45和60个未来时间戳进行训练。

我们将我们的FiM与Argoverse 2排行榜上表现最好的两个开源模型DeMo和QCNet进行了比较。如表2所示，所有FiM变体都超越了这两个强大的基线模型，证明了意图推理模块带来的显著增益。此外，结果进一步表明，更长期的意图监督能显著增强预测置信度，从而促进更可靠的轨迹预测。

nuScenes。我们还在nuScenes数据集上评估了FiM，结果如表3所示。我们的模型在此预测基准上表现出顶级性能，超越了排行榜上所有当前的条目，进一步验证了我们所提出框架在应对复杂运动预测挑战方面的鲁棒性和先进能力。

消融实验

我们在Argoverse验证集上进行了深入的消融研究，以评估我们方法中关键组件的有效性，所有实验设置保持一致以确保公平比较。

奖励启发式的效果（Effects of Reward Heuristics）。我们首先通过从流程中移除推理分支来检验奖励驱动意图推理器的有效性。如表4所示，与我们的完整模型相比，基础架构（Vanilla）的性能显著下降，这突显了推理过程对整体性能的关键贡献。此外，我们通过用交叉注意力块替换QIRL模块来探究其特定影响。表4的结果显示，我们的QIRL模块远优于这种替代方案，证明了QIRL能够有效收集关键的意图先验，并为后续的运动预测提供有益的指导。

OGM与优化模块的效果（Effects of the OGM & Refinement）。我们进一步通过分别消融辅助的时空占用网格图（S-T OGM）模块和优化模块来评估其影响，如表5所示。这两个模块都对最终性能做出了显著贡献。特别是，OGM带来的性能提升证实了建模未来交互能够增强预测质量，突显了意图推理对于改进轨迹预测的重要性。

Mamba解码器组件的效果（Effects of Components in Mamba-Based Decoder）。我们对各种解码器组件进行了消融分析，以检验Mamba-like结构相对于传统方法的优势。此分析有助于确定该设计是否为轨迹解码带来了有意义的特征提取增强，还是构成了过度设计。表6的结果突显了这一设计的优势。与使用MLP作为回归和分类头相比，Bi-Mamba架构和不同模态间的自注意力机制都显著提升了预测性能和置信度。此外，我们研究了为分类提出的双模态token的效果，并将其与一个使用单个模态token来聚合轨迹查询特征的单向Mamba模型进行比较。如表7所示，Bi-Mamba模型表现更优，得益于其前向-后向扫描机制，该机制能有效地将轨迹特征融合到两个分类（CLS）token中，验证了该设计的好处。我们还考察了不同Mamba层数深度的影响，如表8所示。结果表明，更深的层数可能会引入不必要的计算开销，并且由于过拟合也可能导致性能下降，这凸显了选择最优层数配置以实现强大性能的重要性。

定性结果

我们在Argoverse验证集的多种交通场景中展示了我们所提出方法的可视化结果，如图4所示。这些定性结果强调了我们的模型在各种条件下（包括复杂路口和长距离预测场景）生成准确、可行且多模态的未来轨迹的强大能力，这些轨迹与场景布局保持了良好的对齐。

结论

在本研究中，我们从规划的视角重新构想了轨迹预测任务，并提出了一种“先推理，后预测”的策略。我们提出了一种新颖且可解释的奖励驱动意图推理器，该推理器设计于一个以查询为中心的逆强化学习（QIRL）框架之内。该框架通过以查询为中心的流程，将最大熵逆强化学习（MaxEnt IRL）范式与向量化上下文表示相结合，从而为后续的轨迹生成有效地提供了信息丰富的意图先验。

此外，我们引入了一种集成了双向选择性状态空间模型（Bi-Mamba）的分层DETR-like轨迹解码器。该解码器能够捕捉轨迹状态的序列依赖关系，显著提升了预测的准确性和置信度。实验结果表明，我们的推理增强型预测器具备强大的能力，能够生成与场景布局高度吻合的、自信且可靠的未来轨迹，并在性能上达到了与现有最先进模型相当甚至更优的水平。此外，我们的工作强调了意图推理在运动预测中的关键作用，证实了强化学习（RL）范式在建模驾驶行为方面的可行性，并为未来在轨迹预测领域的研究建立了一个极具前景的基线模型。

这里也推荐自动驾驶之心最新推出的的《端到端与VLA自动驾驶小班课》，课程全面梳理了一段式端到端与二段式端到端，尤其是从端到端到VLA的技术演进~

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com