NeurlPS'24开源 | RealMotion:连续自动驾驶中的运动预测

编辑 | 3D视觉工坊

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心运动预测技术交流群

本文只做学术分享,如有侵权,联系删文

0. 论文信息

标题:Motion Forecasting in Continuous Driving

作者:Nan Song, Bozhou Zhang, Xiatian Zhu, Li Zhang

机构:Fudan University、University of Surrey

原文链接:https://arxiv.org/abs/2410.06007

代码链接:https://github.com/fudan-zvg/RealMotion

1. 导读

由于每个智能体的下一步行动有许多可能性以及它们在空间和时间上的复杂交互,自动驾驶中智能体的运动预测极具挑战性。在实际应用中,随着自动驾驶汽车的移动,运动预测会重复不断地发生。然而,现有的预测方法通常独立处理一定范围内的每个驾驶场景,完全忽略了连续驾驶场景之间的情境和上下文关系。这极大地简化了预测任务,使得解决方案在实践中不是最佳的和低效的。为了解决这一基本限制,我们提出了一种新的连续驾驶运动预测框架,名为RealMotion。它包括两个完整的场景级流:(1)场景上下文流渐进地累积历史场景信息直到当前时刻,捕捉场景元素之间的时间交互关系。(2)代理轨迹流通过顺序转发过去的预测来优化当前的预测。此外,还引入了数据重组策略,以缩小现有基准和现实应用之间的差距,与我们的网络保持一致。这些方法能够更广泛地利用跨空间和时间的动态运动的情境和渐进的洞察力。在不同设置的Argoverse系列上的大量实验表明,我们的RealMotion实现了最先进的性能,以及高效的真实世界推理的优势。

2. 引言

运动预测是当代自动驾驶系统中的关键要素,它使自动驾驶车辆能够预测周围主体(agent)的运动模式。这一预测对于确保驾驶的安全性和可靠性至关重要。然而,众多复杂因素,包括随机的道路状况和交通参与者多样化的运动模式,使得解决这一任务颇具挑战性。近期的研究聚焦于表征和建模的研究,同时越来越重视精确的轨迹预测。此外,该领域还越来越关注多主体预测这一更具挑战性但更有价值的子任务。这些进展共同推动了近年来运动预测领域的显著进步。推荐课程:面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)

我们提出了一种用于连续驾驶的高效上下文运动预测框架,名为RealMotion。它包含两个用于场景状态转换的流:(1)场景上下文流,该流逐步累积历史场景上下文,捕捉场景元素之间的时间交互,并应对复杂的驾驶情况。(2)主体轨迹流,该流持续优化车辆等动态主体的预测,考虑时间一致性约束,并捕捉精确的运动意图。每个流都利用专门设计的交叉注意力机制来转换场景状态并实现其功能。

3. 效果展示

我们意识到现有方法孤立地处理运动预测任务,即它们将有限范围内的每个独立驾驶场景视为互不相关的个体,忽略了在真实情况下,任何自动驾驶车辆在行驶过程中,运动预测本质上都是时间上相互关联的。这意味着先前的方法忽略了连续场景之间的驾驶上下文,以及来自先前驾驶时段的相应潜在有用信息(图1)。

6be366d351a6f49eebf4913983795412.png

4. 主要贡献

我们的贡献总结如下:(i)我们从实际应用的角度出发解决运动预测问题,这使得能够提取和利用有价值的情境知识和渐进知识。(ii)我们引入了RealMotion,这是一种新颖的运动预测方法,它随时间顺序利用场景上下文和预测的主体运动状态,同时保持较低的现实世界推理延迟。(iii)为了支持在现有基准上的连续驾驶设置,我们实现了一种数据重组策略来生成场景序列,紧密模拟现实世界中的驾驶场景。在Argoverse系列数据集上进行的大量实验表明,在不同设置下,RealMotion均达到了最先进的性能。

5. 方法

鉴于现有基准测试与实际应用之间的差异,我们的首要步骤是对这些数据集进行重新组织,将每个样本场景转换为连续序列,以模拟连续的真实驾驶场景。具体而言,我们通过将智能体轨迹均匀分割为较短的片段并采样局部地图元素(参见图2),来回顾性地检查每个独立场景。具体来说,我们首先沿着历史帧步骤选择几个分割点Ti。然后,从这些点分别向过去和未来延伸,生成等长的轨迹片段。历史和未来步骤的数量分别由最小分割点和真实轨迹的长度决定。此外,在每个分割点,我们为感兴趣的智能体聚合一定范围内的周围智能体和局部地图,形成一系列子场景。这种重新组织方式能够自由利用原始元素,从而在场景层面为模型优化提供有价值的环境信息和渐进见解。因此,现有方法也可以引入这种新型数据结构并从中受益。

620cd31511d7d364575047abb349e715.png

如图3所示,我们的RealMotion方法包括编码器、解码器、场景上下文流和智能体轨迹流。遵循编码器-解码器结构,这两个流被设计为执行时序建模,重点关注时间维度上的上下文信息和轨迹预测。

52981c8fd9f650cd83ca3c99c39cc92e.png

6. 实验结果

fe17e295ac6f225a62bfd15dde8f3812.png 5d4667d73ef317ae2f21c4b09de356f6.png 3cd56dd62ff325b02c67610aa6ff2aaa.png

7. 总结 & 局限性

在本文中,我们计划从更贴近实际的连续驾驶角度出发来解决运动预测任务。这本质上相较于之前的设定,将运动预测功能置于了一个更广泛的场景背景中。我们进一步提出了RealMotion,这是一个专为支持在时空上连续进行预测动作而设计的通用框架。我们框架的关键组件包括场景上下文流和代理轨迹流,这两者都以序列化的方式工作,并逐步捕捉时间关系。我们在多种设定下进行了广泛的实验,全面证明了RealMotion超越了当前最先进的性能水平,从而为快速发展的自动驾驶领域中的安全可靠运动预测提供了一个有前景的方向。

我们数据处理方法的一个明显限制是需要足够数量的历史帧来进行序列化。因此,它不适用于如Waymo Open Dataset等仅提供10帧历史轨迹的短期基准测试。此外,现有的数据集通常提供的历史信息与真实世界场景差异较大且有限,这阻碍了我们的序列化设计充分发挥其优势。因此,我们期望在未来的工作中将我们的框架集成到序列化的自动驾驶系统中,以最大化流式设计的效益。

自动驾驶之心知识星球』欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

1a94496d07d0254b28370d5b6b6cc4a1.jpeg

① 全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

7c69f4d0d45e12ff7685dc74c1bfda49.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

c697e7e7b758f0bd521871dd6002a403.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

249ea162978822f79c0e740ce5a8722c.jpeg

④【自动驾驶之心】全平台矩阵

15285f31812a56966132e61a4d2ff396.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值