首篇!多模态轨迹预测最新综述,全面分析领域前沿!

文章探讨了多模态轨迹预测(MTP)的重要性,特别是在自动驾驶和社交机器人等领域。MTP旨在处理人类行为的不确定性和多样性,生成多个合理预测。文章回顾了不同框架,如基于噪声、生成对抗网络(GAN)、条件变分自编码器(CVAE)和归一化流(NF)的方法,并分析了各自的优缺点。此外,讨论了数据集、评估指标和未来的研究方向,包括更好的评估标准、可解释性、轻量级框架以及处理分布外模态的预测等挑战。

摘要

轨迹预测是为自动系统提供安全和智能行为的一项重要任务。多年来已经提出了许多改进空间和时间特征提取的前沿方法。 然而,人类行为天然是多模态和不确定的:给定过去的轨迹和周围环境信息,智能体可以在未来有多个可能的轨迹。为了解决这个问题,最近研究了一项基本任务,即多模态轨迹预测 (MTP) ,其目的是为每个智能体生成多样化、可接受且可解释的未来预测分布。本文是MTP的第一个综述,通过独特的分类法和对框架、数据集和评估指标的综合分析。 此外,本文讨论了可以帮助研究人员提出新的多模态轨迹预测系统的多个未来方向。

21918e936fcd494b2229605de127b295.png

1 介绍

多年来,轨迹预测在社交机器人和自动驾驶汽车等自主系统中受到了极大的关注。 它旨在根据过去的轨迹和周围环境(包括地形和障碍物等静态因素以及周围移动智能体等动态因素)预测车辆、行人和骑自行车者等道路使用者的未来轨迹。

传统的轨迹预测探索物理模型来模拟人类行为,其中使用物理模型预测未来的运动,例如社会力  [Helbingand Moln´ar, 1995],它将聚集和避免碰撞等社会行为描述为吸引力和排斥力。 但是,此类模型无法处理复杂的交互作用,其预测不是类似人类的未来预测。最近,已经提出基于学习的模型使用高级模块从数据集中学习复杂的空间和时间交互,例如池化  [Alahi et al., 2016]、注意力  [Gupta et al., 2018]和图神经网络[Mohamed et al., 2020; Huang et al., 2019]

轨迹预测通常被表述为确定性轨迹预测 (DTP) 任务,其中模型仅为每个智能体提供一个预测。然而,DTP 受到有限社会线索的不确定性的严重影响,其性能通常受到限制。以图1为例,假设智能体要进入大楼,观察到的路径表明它也可能过马路或走人行道。由于所有场景都是合理的,因此 DTP 在没有足够线索(例如人类意图)的情况下预测单个轨迹是不现实的。

因此,Gupta et al. [2018], 提出了一项名为多模态轨迹预测 (MTP) 的任务,其中该模型可以提供多种预测以涵盖未来轨迹的所有模态,即可能的路径。MTP 可以处理预测的不确定性,并且已成为几乎所有近期研究中的默认设置。一些方法侧重于改进特征提取模块,而另一些方法则尝试仅使用一个真实未来轨迹来生成更多样化和社会可接受的分布。

本文提出了第一个多模态轨迹预测综述。现有的行人轨迹预测综述 [Rudenko et al., 2020] 和车辆轨迹预测综述 [Teeti et al., 2022] 都从特征提取的角度构建了它们的分类法,而将MTP 作为辅助内容简要介绍。作为轨迹预测中更现实的场景,我们认为需要更深入的调查和分析。本文提供了 MTP 框架、数据集和评估指标的分类法,并分析了它们的优势和问题。然后,本文讨论了应该成为未来研究重点的潜在方向。

2 背景

智能体

轨迹预测中的智能体是具有自我认知的道路使用者,例如行人、驾车者或骑自行车的人。

轨迹

轨迹预测中智能体的轨迹定义为二维现实世界或像素坐标的序列:,其中是时间戳观测轨迹,是时间步长的真值,是场景个智能体的索引。都包含2D索引。

轨迹预测

轨迹预测的目标是使用观测信息作为输入,优化模型以预测个未来轨迹:

b32be993e36fc870676aac1b326155b9.png

其中是智能体的相邻观测轨迹,是场景信息,例如雷达数据,高精地图,场景图等。当时,每个智能体只允许进行一次预测,任务是确定轨迹预测 (DTP) 并且与相比期望预测误差最小。否则,它变成多模态轨迹预测(MTP),旨在预测所有可接受的未来轨迹的分布。

DTP 标准框架

DTP 框架通常遵循图 3a 所示的序列到序列结构,其中过去编码从观察到的信息中提取空间和时间信息,解码器预测未来的路径。 为了构建 DTP 模型,过去的编码可以是 (1) 时间、社会和物理特征的编码模块的组合  [Xue et al., 2018; Sadeghian et al., 2019; Dendorfer et al., 2021]; (2) 基于 CNN 的光栅高清地图 [Wang et al., 2020] 或热图 [Mangalam et al., 2021] 编码模块; 或 (3) 基于图形神经网络的矢量化高清地图编码模块 [Gao et al., 2020]。 解码器可以是基于循环网络的自回归模块或基于 MLP 或基于 CNN 的非自回归模块。 重建损失(例如 l1 或 l2 损失)用于优化预测,以达到期望的预测与真实的误差较小。 MTP 模型也可以在它们的框架中使用这些过去的编码和解码,除了它们的解码是用不同的特征输入重复执行的。

轨迹预测中的多模态

给定观察到的信息,可以对智能体有多个合理且社会可接受的未来预测。因此,它不同于其他多模态学习任务中的数据模态。 由于可以从环境中获得的线索有限以及每个运动的固有随机性,不太可能期望模型预测一个一致且精确匹配真实轨迹的未来轨迹。 因此,MTP 要求模型提供多个人类可以接受的轨迹。

3 MTP框架

3b39b7b017939d1070e803d092f7a763.png

从 MTP 模型预测的“良好”分布应满足以下几个方面:

  1. 多样性,其中预测分布应涵盖所有可能的解决方案;

  2. 社会接受度,其中预测的路径应该符合过去的轨迹并遵循社会规范;

  3. 可解释性/可控性,其中每个预测都应遵循合理的意图或受可理解条件的控制。

这是具有挑战性的,因为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值