目前,端到端自动驾驶技术已经成为自动驾驶领域中非常热门的话题之一,吸引了来自工业界和学术界的广泛关注。端到端自动驾驶将感知和规划集成到一个统一的、完全可微的网络中。其中,基于对复杂物理世界的理解并建模规划意图的不确定性是本领域的一大挑战。
现有的端到端方法探索了多种场景表示来增强对于场景的理解,包括基于BEV表示的、基于矢量表示的,以及基于稀疏表示的方法。然而,这些方法通常需要感知任务的目标标注,例如3D边界框和高清地图,进而限制了算法的可扩展性。
目前,还有一些算法利用自回归视频模型学习到的表征直接生成驾驶轨迹或者从原始图像构建单模态潜在特征,并通过时间自监督学习获取场景表征,减少对于感知标注的依赖。但也存在着难以捕捉物理世界的空间语义信息和多模态驾驶意图,导致训练收敛速度缓慢,性能不佳的问题。
基于上述提到的相关问题,本文提出了一个将多模态驾驶意图与潜在世界模型相结合的端到端自动驾驶框架World4Drive。通过潜意识地模拟不同驾驶意图下物理世界的变化,从而紧密模拟人类驾驶员的决策过程。相关实验结果表明,World4Drive在开环nuScenes数据集和闭环VavSim数据集上均实现了SOTA的表现性能,L2误差相对降低了18.1%,碰撞率降低了46.7%,训练收敛速度提高了3.75倍。
本文的主要贡献如下:
● 受人类驾驶员决策过程的启发,本文提出了一种意图感知潜在世界模型,该模型创新地利用世界模型来生成和评估不同意图下的多模态轨迹。
● 为了增强世界模型在没有感知标注的情况下对物理世界的理解,本文设计了一个新颖的驾驶世界编码模块,该模块利用视觉基础模型的先验知识来提取驾驶环境的物理潜在表征。
● 本文提出的方法在开环nuScenes和闭环NavSim基准测试中无需感知标注即可实现SOTA规划性能,同时显著加快收敛速度。
图1|World4Drive算法模型整体框架图
本文提出的World4Drive算法模型的整体流程如图1所示。可以看出,World4Drive包含两个关键模块:
● 驾驶世界编码模块:该模块从RGB图像和轨迹词汇中提取驾驶意图和物理世界潜在表征
● 意图感知世界模型:根据多模态驾驶意图预测未来世界的潜在表征,并通过世界模型选择器对多模态规划轨迹进行评分
驾驶世界编码
驾驶世界编码模块中包括意图编码器和物理潜在编码器两部分。具体而言,意图编码器首先对轨迹词典中的轨迹按照终点进行K-means聚类得到意图点,进而结合正弦位置编码得到意图查询
,最后利用自注意力层获得意图感知的多模态规划查询
$。
本文为了提取具有对三维物理世界整体理解的世界潜在表征,分别设计了用于整合空间和语义先验信息的上下文编码器以及增强时间上下文信息的时间聚合模块。如图2所示。
图2|上下文编码器的整体网络结构
具体而言,本文首先对输入的环视图像进行特征提取,同时利用视觉语言模型Grounded-SAM来生成2D边界框以及相应的语义掩码。
最后采用交叉熵损失函数增强模型对于潜在表达的语义理解。同时,本文也采用一种前向的投影方法根据预测得到的深度图和相机内参信息获得ego坐标系下的3D位置坐标,从而生成3D位置图。随后,使用正弦函数编码编码这些3D位置坐标得到相应的位置嵌入。
最后,通过将位置嵌入与图像特征相结合得到语义空间感知的视觉特征。同时本文采用时间聚合模块通过交叉注意力机制将历史信息聚合到当前的视觉特征中,从而获取包含时间上下文的潜在特征。
使用意图感知世界模型进行规划
本文采用交叉注意力机制将场景上下文信息引入到规划查询中,然后通过多层感知机层来得到多模态的轨迹。
再得到多模态的轨迹之后,将多层感知机作为动作编码器输出为感知意图动作令牌。通过将动作令牌
与上文得到的世界潜在特征
沿通道的维度进行拼接,并且采用多层的交叉注意力模块预测未来结果。
随后,本文引入了一个世界模型选择模块用于评估在K个不同意图下的轨迹,并且选择其中最合理的轨迹结果,如图3所示。
图3|世界模型选择器的流程图
具体而言,给定预测出来的未来感知潜在变量和真实未来潜在变量,计算二者之间的距离。其中距离最小的模态被选择作为最终的模态。同时,本文也使用了一个分类网络来预测K个模态的得分。并且利用Focal Loss损失来优化提出的世界模型打分网络。
本研究在开环数据集nuScenes和闭环数据集Navsim上进行了实验分析,用于评估提出算法模型的有效性。
图4展示了提出的World4Drive算法模型与其他端到端算法在nuScenes数据集上的实验结果对比。其中蓝色背景的需要手动进行感知标注,而红色背景的不需要进行手动标注。实验结果表明,World4Drive在无感知标注方法中取得了SOTA性能,并且在所有方法中实现了最低的碰撞率。
图4|各类算法模型在nuScenes数据集上的实验结果对比
图5展示了提出的World4Drive算法模型与其他端到端算法在Vavsim数据集上的实验结果对比。可以看出,World4Drive在闭环指标PDMS方面也取得了极具竞争力的表现。与基线方法相比,本文方法在碰撞时间和可驾驶区域合规性指标方面取得了显著改进。
图5|各类算法模型在Navsim数据集上的实验结果对比
本文为了更加直观的展示World4Drive的性能,在nuScenes数据集中展示了 World4Drive的可视化效果,如图6所示。
图6|World4Drive在nuScenes数据集上可视化结果
此外,本文也进行了相关的消融实验来验证提出各个模块的有效性,实验结果如图7所示。可以看出不同模块之间可以相互补充,共同提升算法模型的表现性能。
图7|消融实验结果汇总
本文提出了一个将驾驶意图与潜在世界模型相结合的全新端到端自动驾驶框架World4Drive,创新性地利用潜在世界模型来生成、评估和选择多模态轨迹。大量实验证明World4Drive在开环nuScenes和闭环NavSim数据集上实现了SOTA的性能,表明World4Drive对物理世界的深刻而全面的理解,以及将驾驶意图与潜在世界模型紧密耦合的有效性。