点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
论文作者 | Yi Yang等
编辑 | 自动驾驶之心
“原标题:Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models
论文链接:https://arxiv.org/pdf/2405.20991
代码链接:https://github.com/KTH-RPL/Detect_VLM
作者单位:KTH Royal Institute of Technology Scania CV AB

论文思路:
在自动驾驶中处理难例,如异常道路使用者、极端天气条件和复杂的交通互动,存在显著的挑战。为了确保安全,必须有效地检测和管理这些场景。然而,这些案例的稀缺性和高风险性要求用于训练鲁棒模型的广泛而多样的数据集。视觉-语言基础模型(VLMs)由于在大规模数据集上进行训练,展示了显著的零样本能力。本研究探讨了VLMs在检测自动驾驶中的难例中的潜力。本文展示了诸如GPT-4v等VLMs在交通参与者运动预测中的个体和场景级别上检测难例的能力。本文引入了一个可行的流程,在该流程中,VLMs通过设计的提示词喂入连续的图像帧,能够有效地识别具有挑战性的个体或场景,这些结果由现有的预测模型验证。此外,通过利用VLMs对难例的检测,本文进一步提高了现有运动预测流程的训练效率,进行由GPT建议的数据样本选择。本文展示了将VLMs与最先进的方法结合在NuScenes数据集上的有效性和可行性。
主要贡献:
本文引入了一个可行的流程,利用视觉-语言基础模型(VLM)在自动驾驶环境中检测难例。
本文使用现有的预测网络验证了VLM的检测能力。
本文通过本文的流程展示了,通过检测难例,VLM可以通过适当的数据选择进一步促进更高效的网络训练。
网络设计:
由于深度学习在学术研究和工业界的进展,自动驾驶已经取得了快速发展。然而,如何应对各种复杂和不可预测的场景仍然是一个未解决的挑战。这些场景包括处理其他道路使用者的不寻常行为、在极端天气条件下导航、应对紧急交通情况、管理复杂的互动等等。这些场景不仅难以理解,而且带来了重大的安全隐患。由于这些场景在整个数据集中的稀缺性和高度可变性,它们需要大量的训练数据 [1]。这些数据应涵盖广泛的具有挑战性的情况,以增强基于学习的自动驾驶系统有效响应的能力。
一种直接但昂贵的方法是收集更多的真实世界数据。现代数据集变得越来越大 [2], [3], [4], [5],提供了丰富的信息。此外,研究人员正探索不同的方法,例如使用生成模型根据特定需求生成合成数据集 [6], [7], [8],或通过操控元素如移动或添加道路使用者来重建3D环境以创建新数据 [9], [10], [11]。这些技术扩展了数据集的规模,并可以根据训练需求创建定制场景。然而,它们往往成本高昂,并且通常需要大量的人力干预。增量学习则提供了另一种策略,系统通过专注于预测模型表现不满意的难样本,不断进行适应 [12], [13]。这种方法虽然更加自动化,但存在缺乏可解释性以及对正在训练的网络识别难样本的依赖性的问题。这就提出了一个问题:是否有一种更加可解释且独立的方法?
随着大型语言模型(LLM)和视觉-语言基础模型(VLMs)展示出卓越的性能,并凭借从广泛数据集和大型网络架构中获得的人类般的常识,其在各种任务中的惊人的零样本能力迅速引起了广泛关注 [14], [15], [16], [17], [18], [19]。因此,研究人员越来越感兴趣重新思考当前的自动驾驶流程,并探索将VLM整合到其中的潜力。
在自动驾驶流程的多个任务中,有许多工作使用LLM/VLM来增强各种组件,包括感知、预测、规划、端到端学习等 [20], [21], [22], [23], [24]。与其用LLM/VLM取代现有的流程,一个更现实且有趣的问题出现了:当前的最先进方法如何能从这些大型模型的整合中受益?这引导本文重新审视在驾驶场景中处理难例的挑战,并提出以下问题:VLM能否有效地协助难例检测?VLM的一个关键优势是其广泛的知识库,使其能够理解多变的图像。此外,它们提供文本解释的能力可以构建一个更透明的检测过程。
因此,本文探索利用VLM在代理级和场景级检测难例,重点关注运动预测。在代理级,目标是识别具有意外行为的道路使用者,这些行为通常会导致当前算法失败,产生较大的预测位移误差。在场景级,识别具有挑战性的场景也是非常有用的,例如异常的交通模式、紧急情况、极端天气条件等。这些场景通常对现有的运动预测网络构成挑战。因此,拥有一个能够识别并意识到潜在失败的流程是至关重要的。
本文首先通过本文的流程展示了VLM可以有效帮助检测与现有预测方法一致的难例。随后,本文进一步探索了VLM在检测难例方面的丰富潜在用途,例如,困难场景的数据增强、数据集重平衡、对难例赋予更高权重的损失函数调制、错误分析等。这里本文以数据选择为例,展示了VLM检测难例可以使训练过程更高效。得益于VLM,通过选择合适的训练样本,训练成本降低,同时保持了可比的性能水平。本文在NuScenes数据集上展示了结果 [25],以证明将VLM与现有方法整合的可行性。

图1:两阶段评估。阶段1:验证VLM检测难例的能力,使用现有的运动预测结果作为真实值。本文检查VLM对最难预测的代理的预测是否与基于现有运动预测网络中最高位移误差的排序相匹配。阶段2:通过使用VLM选择的较小数据子集训练网络来提高训练效率。

表1:本文方法设计的提示。a) 指示GPT-4v [19]以特定格式回答两个问题。b) 少样本学习:向VLM提供两个示例进行学习。c) 给定的输入包括来自六个不同视角的连续三帧相机图像及其描述,GPT-4v输出所需格式的答案并附上解释。这里展示了GPT-4v的一个真实输出,它正确地将大多数代理与相应的标记和类型关联起来,并推理它们各自的状态。此外,还提供了描述性文本,以推理生成的代理排名和场景难度评分,显示出卓越的可解释性。

图2:根据较高预测误差/难度对代理进行排序的结果。使用UniAD [29]的排序作为真实值,本文将其与随机排序、ViP3D [28]的排序以及GPT-4v的排序进行比较。评估使用了四个指标:C-index、NDCG、top-5 accuracy和Kendall’s Tau,较大的数值表示与UniAD排序的相关性更高。横坐标为指标值。请注意,对于随机排序,本文进行了10,000次试验,结果的分布显示在蓝色直方图中,纵坐标表示概率密度/频率;随机排序的指标值是所有试验的平均值。图表上方的百分比值表示超过该值的随机试验的百分比(累积概率)。

图3:GPT-4v对446个场景估计的难度等级直方图。
实验结果:

表2:不同输入和提示下GPT-4v性能的消融研究。较大的数值表示GPT-4v排序与UniAD排序之间的高相关性。Cam / Bev表示相机RGB图像或鸟瞰图像与高清地图的输入。Cam+Bev表示如表1所示将它们结合。Pos / Type表示是否提供标注的代理框的像素位置/代理类型。IDs用于区分不同的实验设置。

表3:在不同数据选择设置下使用UniAD训练的模型的minADE和minFDE(以米为单位)比较。本文包括了在整个数据集上训练的模型、随机选择的子集以及由GPT-4v选择的子集的结果。↑蓝色数值表示相对于整个数据集结果的误差百分比增加。
总结:
本文提出了一种利用VLM检测自动驾驶场景中难例的可行流程。本文的工作验证了GPT-4v在预测难例方面的能力,并与现有的预测网络保持一致。本文进一步探索了GPT-4v在数据选择中的应用,证明了GPT-4v通过数据选择促进预测网络的高效训练。未来的工作可以探索使用离线VLM,其中模型及其预训练权重是开源的,从而更紧密地与当前的自动驾驶系统集成。此外,更多的潜在工作可以是将VLM整合到轨迹预测流程中,以解决难以预测的案例。
引用:
Yang Y, Zhang Q, Ikemura K, et al. Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models[J]. arXiv preprint arXiv:2405.20991, 2024.
投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!
① 全网独家视频课程
BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)

② 国内首个自动驾驶学习社区
国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】全平台矩阵