文献阅读笔记：EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning

最新推荐文章于 2025-03-01 10:31:33 发布

原创

最新推荐文章于 2025-03-01 10:31:33 发布 · 1.7k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

文献阅读笔记

摘要
1 引言
2 相关工作
3 Problem formulation
4 EvolveGraph
5 Experiments
6 结论

EvolveGraph: Multi-Agent Trajectory Prediction with Dynamic Relational Reasoning
EvolveGraph：具有动态关系推理的多Agent轨迹预测

收录于NeurlPS 2020
作者：Jiachen Li,Fan Yang,∗Masayoshi ,Tomizuka2,Chiho Choi1
论文地址：NeurlPS 2020
发表时间：NeurlPS 2020
备注：
论文解析
开源：
代码解析：

摘要

在本文中，我们提出了一个通用的轨迹预测框架（名为EvolveGraph），该框架具有通过多个异构交互主体之间的潜在交互图进行显式关系结构识别和预测的功能。
考虑到未来行为的不确定性，该模型旨在提供多模式预测假设。
由于即使发生突然的变化，潜在的交互作用也可能演化，并且不同的演化方式可能导致不同的结果.
因此，我们解决了动态关系推理的必要性并自适应地演化了交互图。
我们还引入了双阶段训练流水线，它不仅提高了训练效率，加快了收敛速度，而且还提高了模型性能。
在合成物理模拟和各个领域的多个实际基准数据集上对所提出的框架进行了评估。

1 引言

多主体轨迹预测在许多实际应用中至关重要，例如自动驾驶，移动机器人导航和一组实体彼此交互的其他区域，从而在个人和多主体层面都产生了复杂的行为模式系统整体。
由于通常只有单个实体的轨迹可用而对底层交互模式一无所知，并且每个代理通常有多种可能的方式，因此对此类动力学进行建模并预测其未来行为颇具挑战性。

有许多现有工作试图为多主体交互建模提供系统的解决方案。
一些相关技术包括但不限于社交池层[1]，注意力机制[41、18、11、39、20]，通过图形传递的消息[7、36、21]等。(行人轨迹预测，同类目标的预测)
这些技术可以概括为通过信息聚合进行隐式交互建模。
另一研究领域是显式地对潜在交互图的结构进行推断，从而允许具有多种交互类型的关系结构[17，2]。
我们的方法属于此类别，但与现有方法相比具有显着的扩展和性能增强。

NRI [17]是一个密切相关的工作，其中交互图在训练过程中是静态的，具有均匀的节点。
对于涉及具有固定交互模式的同类代理的系统而言，这已足够。（例如行人轨迹预测）

但是，在许多实际情况下，即使发生突然变化（例如篮球运动员），潜在的互动也会固有地发生变化。
而且系统中可能包含各种类型的代理人（例如汽车，行人，骑自行车的人等），而NRI无法明确区分它们。
（两种提高适应性的情况！）

此外，NRI在未来的系统行为中并未明确处理多模式。
在这项工作中，我们解决了以下问题:

使用潜在图结构提取潜在的交互模式，该结构能够以统一的方式处理不同类型的代理；
捕获交互图演化的动态过程以进行动态关系推理，
根据历史观测和潜在的交互作用图预测未来的轨迹（状态序列）
捕获未来系统行为的多模态。

本文的主要贡献概括如下：

我们提出了一个通用轨迹预测框架，该框架具有通过多个异构交互主体之间的潜图进行显式交互建模的功能。轨迹信息和上下文信息（例如场景图像，语义图，点云密度图）都可以被合并到系统中。
我们提出了一种动态机制来随着时间适应性地发展基础交互图，该机制捕获了多个代理之间交互模式的动态。我们还引入了双阶段训练流水线，它不仅提高了训练效率并加快了收敛速度，而且在预测准确性方面也提高了模型性能。
拟议的框架旨在从多个方面捕捉自然界未来轨迹的不确定性和多形式性。
我们在不同区域的综合模拟和轨迹预测基准上验证了所提出的框架。我们的EvolveGraph始终达到最先进的性能。

2 相关工作

多智能体轨迹预测问题已被视为一组交互式智能体之间的建模行为。
[9]引入了社会力量来模拟人类相对于邻居的吸引和排斥运动。
提出了其他一些基于学习的方法，例如隐马尔可夫模型[22，45]，动态贝叶斯网络[15]，逆强化学习[38]。
近年来，已经进行了概念上的扩展，以更好地建模具有补充提示的社交行为模型，例如运动模式[47，44]和组属性[43]。
这样的社交模型激发了[1，19，6，42，8，8，46，10，23，3，49，25，33，37，31，20，5，12，27，24 ]。
他们使用神经网络的递归操作对单个实体的运动历史进行编码。
但是，对于这些方法来说，在异构且交互变化的环境中找到可接受的未来运动并非易事，部分原因在于它们的启发式特征池或聚合，这可能不足以进行动态交互建模。

交互建模和关系推理已在各个领域得到了广泛的研究。
近来，已将应用于图结构的深层神经网络用于表述交互式主体或变量之间的联系[41、25、18、21、35、48]。
这些方法引入了表示交互代理的节点和表示彼此交互的边。
他们通过构造时空图直接了解节点属性（代理状态）和/或边缘属性（代理之间的关系）的动态变化。
但是，他们的模型对底层交互模式没有明确的了解。
一些现有的工作（例如NRI [17]）已经通过推断潜在的交互图朝着显式关系推理迈出了一步。
但是，NRI处理异构代理，上下文信息以及具有各种交互作用的系统并非易事。
在这项工作中，我们提出了解决上述问题的有效解决方案。我们的工作还与动态图学习有关。
现有的大多数研究都是在动态演化的图上研究表示学习[29，16]，而我们试图预测图的演化。

3 Problem formulation

我们假定在不失一般性的情况下，场景中有N个同质或异质代理，它们属于M（≥1）类（例如汽车，骑自行车的人，行人）。
代理的数量在不同情况下可能会有所不同。

我们用 $\mathbf{X}_{1: T}=\left\{\mathbf{x}_{1: T}^{i}, T=T_{h}+T_{f}, i=1, \ldots, N\right\}$ 表示一组覆盖历史和预测范围（Thand Tf）的状态序列。
我们还将一系列历史上下文信息表示为动态场景的 $\mathbf{C}_{1: T_{h}}=\left\{\mathbf{c}_{1: T_{h}}\right\}$ 或静态场景的固定上下文信息C。

在本文的范围内，我们定义xi t =（xi t，yi t），其中（x，y）是世界空间或图像像素空间中的2D坐标。

上下文信息包括代表场景属性的图像或张量。我们将潜在的交互图表示为 $\mathcal{G}_{\beta}$ ，其中β是图索引。

我们的目标是估计动态场景的 $p\left(\mathbf{X}_{T_{h}+1: T_{h}+T_{f}} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}_{1: T_{h}}\right)$
或者静态场景的 $p\left(\mathbf{X}_{T_{h}+1: T_{h}+T_{f}} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}\right)$

为简单起见，当在等式中引用上下文信息时，我们使用C。
更正式地讲，如果在每个时间步上推断出潜在的相互作用图，那么我们就可以得到以下的 $p\left(\mathbf{X}_{T_{h}+1: T_{h}+T_{f}} \mid \mathbf{X}_{1: T_{h}}, \mathbf{C}\right)$