导读:本文提出的CALMM-Drive,它是首个引入置信度感知大型多模态模型(LMM)驱动的自动驾驶框架,通过采用Top-K置信度引导,能够生成多个候选决策及其置信度级别。在nuPlan闭环仿真环境中的评估结果表明,验证其可靠和灵活的驾驶性能方面的有效性,展示了在LMM加持下的自动驾驶车辆中整合不确定性的显著进展。
论文标题:CALMM-Drive: Confidence-Aware Autonomous Driving with Large Multimodal Model
论文地址:http://arxiv.org/abs/2412.04209
论文作者:Ruoyu Yao, Yubin Wang, Haichao Liu, Rui Yang, Zengqi Peng, Lei Zhu,Jun Ma
1.背景介绍
决策和运动规划是自动驾驶车辆(AVs)的关键组成部分,直接影响安全性、效率和驾驶性能的一致性。该领域现有的方法通常分为两种范式:先决策后规划(decision then planning)或先生成后评分(generation then scoring)。虽然第一种范式在概念上简单明了,但它难以解决决策过程与规划过程之间的潜在不一致。相比之下,第二种范式生成多模态轨迹候选,能够基于与不同轨迹相关的明确性能评分进行知情决策。 然而,设计一种适当的评分机制,以有效平衡操作效用与战术有效性,仍然是一个问题。
一般对多模态轨迹候选的评分和选择过程的探索包括基于规则和基于学习的方法。
- 基于规则的方法依赖于手工设计的函数,结合多个指标,通过有效捕捉复杂的轨迹特征以可解释的方式展示了卓越的闭环驾驶性能。然而,它往往难以在多样化的驾驶场景中进行泛化,导致不灵活甚至过于保守的驾驶行为。
- 相反,基于学习的方法,如逆强化学习和端到端学习,能够通过从人类驾驶经验中学习来捕捉奖励或成本模型,从而展示出更人性化的驾驶性能。但同时,传统的基于学习的方法往往难以泛化到长尾和具有挑战性的场景,主要是因为它们的训练局限于特定领域的数据拟合,缺乏广泛的现实世界知识基础。
近来,大语言模型(LLMs)和大多模态模型(LMMs)在自动驾驶中的研究也有进步。这些大型模型赋能的方法在各种任务中展现了强大的泛化性能,利用了链式思维推理、工具调用和终身学习。特别的是,有些方法将基于LMM的模块与基于规则的评分器相结合,以评估自动驾驶车辆的多模态运动规划,使LMM能够根据不同的交通情况自适应调整基于规则的评分器的权重,从而显著提高驾驶舒适性。此外,提出了一种综合框架,利用来自AI反馈的强化学习,通过对不同联合预测场景的偏好表达来帮助学习奖励模型。尽管取得了这些进展,但必须承认LLM推理固有的不确定性。
还有研究表明,LLM可能会被误导生成不准确的响应,而未意识到存在多个可能的解决方案,这在应用于风险敏感领域如自动驾驶时带来了挑战。因此,作者提出了一个关键问题:LMM能否在应对自动驾驶的决策时表达其不确定性,从而为构建可信赖的自动驾驶系统奠定基础?
为了解决这个问题, 本文引入CALMM-Drive,它是一种置信度感知(confidence-aware)的大多模态模型驱动的自动驾驶框架。该框架采用Top-K置信度引导,使决策代理能够生成多个候选响应及其置信度水平。作者提出了一种新的范式,即引导生成后进行置信度感知评分,结合扩散模型进行决策引导的多模态轨迹生成,以及层次化精炼过程进行轨迹选择。该框架旨在增强自动驾驶系统的可靠性和灵活性,降低一次性决策的风险,并避免基于规则评分所造成的陷阱。如图1所示。
图 1 | 决策规划范式与本文框架范式对比©️【深蓝AI】编译
本文贡献如下:
- 本文提出了一种首个由LMM引导的置信度感知自动驾驶框架,以增强LMM赋能自动驾驶系统的鲁棒性。
- 还开发了一种引导轨迹生成和层次化精炼模块,通过将决策中的置信度、运动规划中的效用和决策与规划的一致性结合起来,以获得最佳轨迹,从而应对传统基于评分方法固有的长尾挑战。
- 在nuPlan闭环仿真环境中的全面评估表明,该方法具备可靠和灵活的驾驶性能方面的有效性。
2.相关研究
大模型赋能的智能体:LLMs和LMMs的普及在机器人操作和自动驾驶领域有多种应用。在机器人领域,将大型模型的语义知识应用于机器人手臂操作、移动机器人导航、无人机控制等方面。这些大模型赋能的智能体表现出优越的泛化能力和比传统基于学习的方法更好的可解释性。在自动驾驶方面,将大模型应用于解决长尾分布的挑战。例如,基于Qwen-VL的多模态理解能力,提出了一个混合系统,将LMM基础的推理模块与传统的自动驾驶管道结合用于运动规划。尽管这些方法取得了一些进展,但一个显著的差距依然存在:现有研究尚未解决LLMs和LMMs在做出驾驶决策时固有的不确定性,这可能削弱提议系统的鲁棒性并导致不理想的结果。
深度不确定性估计: 不确定性估计一直是深度学习社区中的一个关键研究领域。早期的研究构建了贝叶斯神经网络,通过贝叶斯推理量化模型的不确定性。然而,贝叶斯推理所带来的高计算成本促使引入了作为可行近似的蒙特卡罗丢弃方法。这种方法允许在不改变模型结构或显著增加计算需求的情况下进行不确定性估计。此外,深度集成的概念被提出作为一种简单而有效的策略来估计模型的不确定性,展示了可扩展性和鲁棒性。在这些技术的基础上,对于语言模型的不确定性量化的研究也得到了发展。值得注意的是,传统的不确定性估计方法通常假设对模型结构和权重有白盒访问权限,这限制了它们在封闭源LLMs中的应用。考虑在驾驶决策中固有的随机性和多模态性,Top-K置信度引导为增强LMM激励的自动驾驶系统中的置信度感知提供了一个引人注目的方法。
自动驾驶中的不确定性: 自动驾驶中的不确定性已从不同的角度进行了探讨。在感知和预测领域,重大努力集中在量化与对象分类、空间定位、意图识别和行为预测相关的不确定性。在决策和运动规划的背景下,研究了在战术决策中评估强化学习策略的置信度、建模系统动态的不准确性以及量化端到端规划框架中的不确定性。这些研究强调了在自动驾驶系统中纳入不确定性考虑的必要性,以更好地确保鲁棒性,这也是基于大型模型的方法应整合的一个因素。