目录
摘要
准确预测周围交通参与者的未来运动对于自动驾驶车辆的安全至关重要。最近,矢量化方法由于能够捕捉交通场景中的复杂交互而在运动预测领域占据主导地位。然而,现有的方法忽略了问题的对称性并且受到昂贵的计算成本的影响,面临着在不牺牲预测性能的情况下进行实时多主体运动预测的挑战。为了应付这一挑战,我们提出了用于快速准确的多智能体运动预测的分层矢量Transformer(HiVT)。通过将问题分解为局部上下文提取和全局交互建模,我们的方法可以有效且高效地对场景中的大量参与者进行建模。同时,我们提出了平移不变的场景表示和旋转不变的空间学习模块,提取对场景的几何变换具有鲁棒性的特征,并使模型能够在单个前向传递中对多个智能体进行准确的预测。实验表明HiVT在Argoverse运动预测基准上以较小的模型尺寸实现了最先进的性能,并且可以进行快速的多智能体运动预测。
1.介绍
以安全的方式在动态环境中导航是自动驾驶汽车的一项重要任务。为此,自动驾驶汽车需要了解周围环境并预测道路未来。然而,准确预测附近目标或意图可能未知的交通主体(比如车辆/自行年/行人)的未来运动具有挑战性。在多智体流量场景中,参与者的行为是由其他智能体的复杂交互决定的。这种交互进一步与依赖地图的交通规则交织在一起,使得理解场景中多智能体多样化的交通规则变得极其困难。

本文提出了一种名为HiVT的分层向量Transformer模型,用于快速准确的多智能体运动预测。HiVT通过局部编码器和全局交互模块,有效处理交通场景中的复杂交互,同时利用平移和旋转不变性降低计算成本。实验表明,HiVT在Argoverse基准上以较小的模型尺寸实现了先进的预测性能,并能进行快速的多智能体预测,解决了现有矢量化方法的局限性。
订阅专栏 解锁全文
1908

被折叠的 条评论
为什么被折叠?



