文献阅读笔记:EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning

EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning
EvolveGraph:具有动态关系推理的多Agent轨迹预测

收录于NeurlPS 2020
作者:Jiachen Li,Fan Yang,∗Masayoshi ,Tomizuka2,Chiho Choi1
论文地址:NeurlPS 2020
发表时间:NeurlPS 2020
备注:
论文解析
开源 :
代码解析 :

摘要

在本文中,我们提出了一个通用的轨迹预测框架(名为EvolveGraph),该框架具有通过多个异构交互主体之间的潜在交互图进行显式关系结构识别和预测的功能。
考虑到未来行为的不确定性,该模型旨在提供多模式预测假设。
由于即使发生突然的变化,潜在的交互作用也可能演化,并且不同的演化方式可能导致不同的结果.
因此,我们解决了动态关系推理的必要性并自适应地演化了交互图。
我们还引入了双阶段训练流水线,它不仅提高了训练效率,加快了收敛速度,而且还提高了模型性能。
在合成物理模拟和各个领域的多个实际基准数据集上对所提出的框架进行了评估。

1 引言

多主体轨迹预测在许多实际应用中至关重要,例如自动驾驶,移动机器人导航和一组实体彼此交互的其他区域,从而在个人和多主体层面都产生了复杂的行为模式系统整体。
由于通常只有单个实体的轨迹可用而对底层交互模式一无所知,并且每个代理通常有多种可能的方式,因此对此类动力学进行建模并预测其未来行为颇具挑战性。

有许多现有工作试图为多主体交互建模提供系统的解决方案。
一些相关技术包括但不限于社交池层[1],注意力机制[41、18、11、39、20],通过图形传递的消息[7、36、21]等。(行人轨迹预测,同类目标的预测)
这些技术可以概括为通过信息聚合进行隐式交互建模。
另一研究领域显式地对潜在交互图的结构进行推断,从而允许具有多种交互类型的关系结构[17,2]。
我们的方法属于此类别,但与现有方法相比具有显着的扩展和性能增强

NRI [17]是一个密切相关的工作,其中交互图在训练过程中是静态的,具有均匀的节点
对于涉及具有固定交互模式同类代理的系统而言,这已足够。(例如行人轨迹预测)

但是,在许多实际情况下,即使发生突然变化(例如篮球运动员),潜在的互动也会固有地发生变化。
而且系统中可能包含各种类型的代理人(例如汽车,行人,骑自行车的人等),而NRI无法明确区分它们。
(两种提高适应性的情况!)

此外,NRI在未来的系统行为中并未明确处理多模式。
在这项工作中,我们解决了以下问题:

  1. 使用潜在图结构提取潜在的交互模式,该结构能够以统一的方式处理不同类型的代理;
  2. 捕获交互图演化的动态过程以进行动态关系推理,
  3. 根据历史观测和潜在的交互作用图预测未来的轨迹(状态序列)
  4. 捕获未来系统行为的多模态。

本文的主要贡献概括如下:

  1. 我们提出了一个通用轨迹预测框架,该框架具有通过多个异构交互主体之间的潜图进行显式交互建模的功能。轨迹信息和上下文信息(例如场景图像语义图点云密度图)都可以被合并到系统中。
  2. 我们提出了一种动态机制来随着时间适应性地发展基础交互图,该机制捕获了多个代理之间交互模式的动态。我们还引入了双阶段训练流水线,它不仅提高了训练效率并加快了收敛速度,而且在预测准确性方面也提高了模型性能。
  3. 拟议的框架旨在从多个方面捕捉自然界未来轨迹的不确定性和多形式性。
  4. 我们在不同区域的综合模拟和轨迹预测基准上验证了所提出的框架。我们的EvolveGraph始终达到最先进的性能。

2 相关工作

多智能体轨迹预测问题已被视为一组交互式智能体之间的建模行为。
[9]引入了社会力量来模拟人类相对于邻居的吸引和排斥运动。
提出了其他一些基于学习的方法,例如隐马尔可夫模型[22,45],动态贝叶斯网络[15],逆强化学习[38]。
近年来,已经进行了概念上的扩展,以更好地建模具有补充提示的社交行为模型,例如运动模式[47,44]和组属性[43]。
这样的社交模型激发了[1,19,6,42,8,8,46,10,23,3,49,25,33,37,31,20,5,12,27,24 ]。
他们使用神经网络的递归操作对单个实体的运动历史进行编码。
但是,对于这些方法来说,在异构且交互变化的环境中找到可接受的未来运动并非易事,部分原因在于它们的启发式特征池或聚合,这可能不足以进行动态交互建模。

交互建模和关系推理已在各个领域得到了广泛的研究。
近来,已将应用于图结构的深层神经网络用于表述交互式主体或变量之间的联系[41、25、18、21、35、48]。
这些方法引入了表示交互代理的节点和表示彼此交互的边。
他们通过构造时空图直接了解节点属性(代理状态)和/或边缘属性(代理之间的关系)的动态变化。
但是,他们的模型对底层交互模式没有明确的了解。
一些现有的工作(例如NRI [17])已经通过推断潜在的交互图朝着显式关系推理迈出了一步。
但是,NRI处理异构代理,上下文信息以及具有各种交互作用的系统并非易事。
在这项工作中,我们提出了解决上述问题的有效解决方案。我们的工作还与动态图学习有关。
现有的大多数研究都是在动态演化的图上研究表示学习[29,16],而我们试图预测图的演化。

3 Problem formulation

我们假定在不失一般性的情况下,场景中有N个同质或异质代理,它们属于M(≥1)类(例如汽车,骑自行车的人,行人)。
代理的数量在不同情况下可能会有所不同。

我们用 X 1 : T = { x 1 : T i , T = T h + T f , i = 1 , … , N } \mathbf{X}_{1: T}=\left\{\mathbf{x}_{1: T}^{i}, T=T_{h}+T_{f}, i=1, \ldots, N\right\} X1:T={ x1:Ti,T=Th+Tf,i=1,,N}表示一组覆盖历史和预测范围(Thand Tf)的状态序列。
我们还将一系列历史上下文信息表示为动态场景的 C 1 : T h = { c 1 : T h } \mathbf{C}_{1: T_{h}}=\left\{\mathbf{c}_{1: T_{h}}\right\} C1:Th={ c1:Th}或静态场景的固定上下文信息C。

在本文的范围内,我们定义xi t =(xi t,yi t),其中(x,y)是世界空间或图像像素空间中的2D坐标。

上下文信息包括代表场景属性的图像或张量。我们将潜在的交互图表示为 G β \mathcal{G}_{\beta} Gβ,其中β是图索引。

我们的目标是估计动态场景的 p ( X T h + 1 : T h + T f ∣ X 1 : T h , C 1 : T h ) p\left(\mathbf{X}_{T_{h}+1: T_{h}+T_{f}} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}_{1: T_{h}}\right) p(XTh+1:Th+TfX1:Th,C1:Th)
或者静态场景的 p ( X T h + 1 : T h + T f ∣ X 1 : T h , C ) p\left(\mathbf{X}_{T_{h}+1: T_{h}+T_{f}} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}\right) p(XTh+1:Th+TfX1:Th,C)

为简单起见,当在等式中引用上下文信息时,我们使用C。
更正式地讲,如果在每个时间步上推断出潜在的相互作用图,那么我们就可以得到以下的 p ( X T h + 1 : T h + T f ∣ X 1 : T h , C ) p\left(\mathbf{X}_{T_{h}+1: T_{h}+T_{f}} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}\right) p(XTh+1:Th+Tf

### 轨迹Transformer模型在多智能体运动预测中的应用 轨迹预测是自动驾驶系统中至关重要的组成部分,尤其是在复杂的交通场景中,涉及多个智能体(如车辆、行人、自行车等)的交互。近年来,Transformer架构因其强大的序列建模能力,被广泛应用于多智能体运动预测任务中。其中,rajFormer 是一种专门针对多智能体轨迹预测设计的Transformer模型,它通过引入注意力机制,有效地捕捉智能体之间的时空交互关系。 #### 模型结构与核心原理 rajFormer 的核心思想是利用Transformer的自注意力机制(Self-Attention)和交叉注意力机制(Cross-Attention),对智能体之间的相对运动模式和交互关系进行建模。该模型将每个智能体的历史轨迹作为输入序列,并通过嵌入层将其映射为高维特征向量。随后,模型利用多头注意力机制对智能体之间的空间依赖性进行建模,从而捕捉不同智能体之间的潜在交互模式。 在rajFormer中,智能体之间的相对位置信息被显式地编码到注意力权重中,这有助于模型更好地理解智能体之间的相对运动趋势。此外,模型还引入了时间维度的注意力机制,以捕捉每个智能体自身的历史轨迹演化规律。这种时空注意力机制使得模型能够同时处理空间交互和时间动态,从而提升预测的准确性。 #### 异构信息建模与多模态预测 rajFormer 还支持异构信息建模,即能够处理不同类型的智能体(如车辆、行人等)之间的交互。模型通过统一的Transformer架构对不同类型的智能体进行特征提取,并在同一空间中进行交互建模。这种设计不仅提升了模型的泛化能力,也使得模型能够在单次前向传播中完成多个智能体的多模态轨迹预测。 在多模态轨迹预测方面,rajFormer 通过引入潜在变量(Latent Variables)来建模不同的未来轨迹分布。模型可以生成多个可能的未来轨迹,并通过评分机制选择最可能的轨迹作为输出。这种方式使得模型能够更好地应对现实交通场景中不确定性较高的情况。 #### 实验与性能评估 rajFormer 在多个公开数据集上进行了实验验证,包括Waymo Open Motion Dataset和INTERACTION Dataset。实验结果表明,该模型在轨迹预测任务中达到了当前最先进的性能水平(SOTA)。具体而言,rajFormer 在预测精度(如ADE、FDE指标)和多模态预测能力方面均优于现有方法[^2]。 ### 模型优势与创新点 - **统一的Transformer架构**:rajFormer 采用统一的Transformer架构,能够同时处理多个智能体的输入,并在统一的空间中建模它们之间的交互关系。 - **显式的空间关联建模**:通过显式地建模智能体之间的空间关联,rajFormer 能够更好地捕捉复杂的交互模式,从而提升预测的鲁棒性。 - **高效的多模态预测机制**:引入潜在变量机制,使得模型能够生成多个可能的未来轨迹,从而更好地应对不确定性。 - **端到端训练**:整个模型可以端到端地进行训练,无需手工设计复杂的特征工程,提升了模型的可扩展性和实用性。 ### 示例代码 以下是一个简化的rajFormer模型结构的伪代码示例: ```python class RajFormer(nn.Module): def __init__(self, num_agents, d_model, nhead, num_layers): super(RajFormer, self).__init__() self.embedding = nn.Linear(2, d_model) # 输入为二维坐标 self.positional_encoding = PositionalEncoding(d_model) self.transformer = nn.Transformer(d_model=d_model, nhead=nhead, num_encoder_layers=num_layers) self.decoder = nn.Linear(d_model, 2) # 输出为二维坐标 def forward(self, src, tgt): src = self.embedding(src) src = self.positional_encoding(src) tgt = self.embedding(tgt) tgt = self.positional_encoding(tgt) output = self.transformer(src, tgt) return self.decoder(output) ``` 该代码展示了rajFormer的基本结构,包括嵌入层、位置编码、Transformer编码器-解码器结构以及输出层。 ---
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值