地平线丢出关键一招：基于视觉语言模型的端到端自动驾驶框架HE-Drive，核心在于极度“类人”

最新推荐文章于 2025-12-02 20:41:06 发布

原创最新推荐文章于 2025-12-02 20:41:06 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

导读：

由地平线和香港大学等高校最新的提出的基于的视觉语言模型（VLM）的类人端到端自动驾驶框架：HE-Drive。大量实验结果证明，它不仅在nuScenes和OpenScene数据集上取得了最好的性能(即平均碰撞率比VAD降低了71%)和效率（即比Sparse Drive快1.9倍），而且在真实世界数据上提供了最舒适的驾驶体验。©️【深蓝AI】编译

1. 背景介绍

端到端自动驾驶范式以优化规划为目标，将感知、规划和轨迹评分任务整合成一个统一的模型，在推动自动驾驶技术方面显示出巨大的潜力（见图1a）。其中，基于模仿学习的运动规划器是从大规模的驾驶专家数据中学习驾驶策略，并采用基于学习的轨迹评分器从多个预测候选轨迹中选择最安全和最准确的轨迹来控制车辆。然而，现有的规划器和评分器面临的挑战是：

●生成时间不一致的轨迹，其中连续的预测在时间上是不稳定和不一致的；

●以及选择不舒适的轨迹，这些轨迹表现出持续制动，会导致失速或过度的转弯曲率。

图1｜HE-Drive系统表现©️【深蓝AI】编译

基于模仿学习的规划器生成的轨迹中的时间不一致性主要源于两个因素：时间相关性和泛化能力。首先，这些规划器依赖于当前帧过去几秒的信息来预测未来轨迹，忽视了连续预测之间的相关性。其次，它们的性能受到收集的离线专家轨迹质量的限制，使得它们对系统动态变化和分布外状态非常敏感，从而导致学习到的策略缺乏对未见场景的泛化能力。本文作者提出了一种基于扩散的规划器，能够生成具有强时间一致性的多模态轨迹。

此外，造成预测轨迹不舒适的关键原因是次优的轨迹评分器缺乏整个周期的评估能力，以及缺乏通用的指标来衡量轨迹的舒适度。本文提出了一种新的轨迹评分器和通用的舒适度度量指标，将基于规则的评分器的可解释性与VLM的适应性相结合，以调整驾驶风格（即激进或保守）进行整个周期评估。

图2｜HE-Drive框架概览©️【深蓝AI】编译

在本文中，作者引入HE-Drive（如图2所示）旨在解决上述两个问题。它利用稀疏感知（稀疏特征）检测、跟踪和映射驾驶场景，生成3D空间表示。这些表示被条件性地输入到基于扩散的运动规划器中，该规划器由条件去噪扩散概率模型（DDPM）驱动。最后，由VLM指导（即Llama 3.2V）的轨迹评分器从候选中选择最舒适的轨迹以控制车辆，从而确保人类般的端到端驾驶。

主要贡献有：

●提出一种基于扩散的运动规划器：它通过对稀疏感知网络提取的3D表示进行条件化，并结合历史预测轨迹的速度、加速度和偏航，生成时间一致且多模态的轨迹。

●一个即插即用的轨迹评分器：基于VLM的轨迹评分器和舒适度指标，填补了类人驾驶的空白，使其能够轻松地整合到现有的自动驾驶系统中。

●在开环和闭环基准测试中表现出色：HE-Drive在nuScenes和OpenScene数据集上实现了不错性能和效率，同时在真实世界数据集上提高了32%的舒适度，展示了其在各种场景中的有效性。

2. 相关研究

2.1 端到端自动驾驶

端到端自动驾驶旨在直接从原始传感器生成规划轨迹。基于不同的评估方法分为开环和闭环系统。在开环系统中，UniAD提出了一个统一框架，将全栈驾驶任务与查询统一接口相结合，以改善任务之间的交互。VAD增强了规划的安全性和效率，其在nuScenes数据集上的表现证明了这一点，而SparseDrive利用稀疏表示来减轻模块化系统中固有的信息损失和错误传播，提高了任务性能和计算效率。在闭环评估中，VADv2通过概率规划推进了向量化自动驾驶，利用多视角图像生成车辆控制的动作分布，在CARLA Town05基准测试中表现优异。

2.2 用于轨迹生成的扩散模型

用于图像合成中的扩散模型，已应用于轨迹生成。基于势能的扩散运动规划通过采用学习到的势能函数来构建适应性运动计划，能够应对复杂环境，展现了该方法的可扩展性和可迁移性。NoMaD和SkillDiffuser均呈现了统一框架，分别简化了目标导向的导航和基于技能的任务执行，其中NoMaD在导航结果上有所改进，SkillDiffuser则实现了可解释的高层指令跟随。

总之，基于模仿学习的模型可能由于固有的因果混淆而错误地将驾驶者的行为归因于错误的因果因素。相较之下，扩散模型通过在潜在空间中学习场景特征和驾驶者动作的联合分布，能够更好地捕捉潜在的因果关系，使模型能够正确将真实原因与相应的行为相联系。

2.3 用于轨迹评估的大语言模型

基于规则的轨迹评分方法提供了强大的安全保证，但缺乏灵活性，而基于学习的方法在开环任务中表现良好，但在闭环场景中却存在问题。DriveLM将VLMs集成到端到端驾驶系统中，通过感知、预测和规划问答对建模图结构推理。然而，大型模型生成的结果可能存在幻觉，并需要进一步的策略以确保在自动驾驶中的安全应用。

3. 方法精析

HE-Drive的关键组件（如图2所示）主要包含：稀疏感知、基于扩散模型的运动规划器和由VLMs指导的轨迹评分器。

3.1 稀疏感知

HE-Drive首先采用视觉编码器从输入的多视角摄像头图像中提取多视图视觉特征，记为 $\mathcal F$ 。这些图像记为 $\{ J_{\tau} \in \mathbb R^{N×3×H×W} \}^T_{\tau=T−k}$ ，其中 $N$ 为摄像头视角的数量， $k$ 为时间窗口的长度， $J_{\tau}$ 表示时间步 $\tau$ 的多视图图像， $T$ 为当前时间步。然后，稀疏感知为运动规划器提供3D表示（3D Reressentations） $\Theta$ （如图2所示）。

3.2 基于扩散的运动规划器

图7展示了基于扩散的运动规划器的整体流程。

运动规划器的扩散策略：如图2所示，本文使用条件去噪扩散概率模型（DDPM），这是一种生成模型，通过参数化的马尔可夫链实现，利用变分推理来建模条件分布 $p(A_t|O_t)$ 。DDPM由一个前向过程组成，该过程逐步向输入数据添加高斯噪声，将其转换为纯噪声，以及一个反向过程，该过程迭代去噪有噪声的数据以恢复原始数据。

图7｜运动规划器的扩散策略概览©️【深蓝AI】编译

具体而言，DDPM的输入条件包括紧凑的3D表示 $\Theta$ 、自车状态 $e$ 、历史预测轨迹 $\mathcal H$ ，以及其相应的速度 $v_i$ 、加速度 $a_i$ 和偏航编码 $\theta_i$ 。包含观察 $O_t$ 及上述相关条件的拼接条件 $C$ 通过FiLM注入到网络的每个卷积层中。这种通道级条件引导轨迹生成从自我位置到锚位的过程。去噪过程从形状为 $B, N_a, T_i, P]$ 的高斯噪声 $A^k_t$ 开始，其中 $B$ 表示批量大小， $N_a$ 表示锚的数量， $T_i$ 指导航点之间的时间间隔 $(i = 0.5, 1, 1.5, 2, 2.5, 3)$ 。 $P$ 表示每个时间间隔 $T_i$ 的坐标位置 $(x, y)$ 。通过利用去噪网络 $\epsilon_\theta$ ，噪声数据通过 $k$ 次迭代精炼为无噪声的3秒未来多模态轨迹 $A_0$ 。每条轨迹 $\tau_i$ 表示为一组路径点 ${(x_t, y_t)}^{T_i}_{t=1}$ 。反向过程由以下方程描述：

$A_t^{k-1} = \alpha(A_t^k - \gamma\epsilon_\theta(A_t^k, k, O_t, \Theta, e, \mathcal H) + \mathcal N(0, \sigma^2, I))\quad(1)$

其中 $\alpha$ 和 $\gamma$ 是缩放因子， $\mathcal N(0, \sigma², I)$ 表示均值为0、方差为 $\sigma^2$ 的高斯噪声。

图3｜VTS概览©️【深蓝AI】编译

3.3 基于VLMs的轨迹评分器

如图3所示，作者引入了VLMs指导的轨迹评分器（VTS），从DDPM生成的多模态轨迹中选择最适合的路径。VTS作为第一个结合了可解释性和零样本驾驶推理能力的轨迹打分器。通过使用视觉语言模型（Vision-Language Models，VLMs），VTS有效地评估了基于各种驱动因素（例如碰撞概率和舒适度）的轨迹，实现了透明的决策和对新驾驶场景的适应性，而无需对终身评价等进行广泛的微调。

基于规则的轨迹评分器：使用以下成本函数的线性组合来为采样轨迹评分。总成本函数 $C_{total}$ 由两个主要组成部分构成：安全成本 $C_{safetey}$ 和舒适成本 $C_{comfort}$ 。

$C_{total} = C_{safety} + C_{comfort}\quad(2)$

Safety Cost由以下Cost组成：

$C_{safety} = w_{coll}C_{coll} + w_{dis}C_{dis} + w_{deviation}C_{deviation} + w_{speed}C_{speed}\quad(3)$
$C_{coll} = exp(-d_{coll}/\sigma_{coll})\quad(4)$
$C_{dis} = \parallel \mathbf p_{end} - \mathbf p_{target} \parallel_2\quad(5)$
$C_{deviation} = \sum\limits_{i=1}^N (1 - \cos(\theta_i - \theta_{target}))\quad(6)$
$C_{speed} = ( \bar{v} - v_{target} )^2\quad(7)$

其中， $d_{coll}$ 是车辆与障碍物的最小距离， $C_{coll}$ 是车辆障碍物距离与碰撞风险之间的关系。缩放因子 $\sigma_{coll}$ 设置为1.0米，以确保随着距离减小成本迅速增加，从而优先考虑避免碰撞。 $\mathbf p_{end}$ 和 $\mathbf p_{target}$ 分别是结束位置和目标位置， $C_{dis}$ 表示它们之间的欧几里得距离。 $N$ 是轨迹上点的数量， $\theta_i$ 是第 $i$ 个点的航向， $\theta_{target}$ 是目标航向。 $C_{deviation}$ 衡量轨迹与目标航向之间的累计偏差。 $\bar{v}$ 是平均速度， $v_{target}$ 是目标速度， $C_{speed}$ 则是惩罚与目标速度的偏差。

Comfort Cost由以下Cost组成：

$C_{comfort} = w_{lat}C_{lat} + w_{lon}C_{lon} + w_{cent}C_{cent}\quad(8)$
$C_{lat} = max(\mid a_{lat}\mid)\quad(9)$
$C_{lon}=max(\mid a_{lon}\mid)\quad(10)$
$C_{cent} = max(\mid a_{cent}\mid)\quad(11)$

其中， $a_{lat}$ 、 $a_{lon}$ 和 $a_{cent}$ 分别是横向、纵向和向心加速度。舒适成本 $C_{comfort}$ 旨在惩罚可能导致乘客不适的过大横向、纵向和向心加速度。通过最小化这些加速度的最大绝对值，轨迹规划器旨在减少剧烈的侧向移动、突然的刹车或激烈的加速，并确保在转弯时的平稳导航。权重 $w_{coll}$ 、 $w_{dis}$ 、 $w_{deviation}$ 、 $w_{speed}$ 、 $w_{lat}$ 、 $w_{lon}$ 和 $w_{cent}$ 平衡了每个子成本对整体成本函数的影响（如表1所示），允许轨迹规划器根据自动驾驶系统的具体要求优先考虑安全与舒适的不同方面。

表1｜规则评分器的权重值©️【深蓝AI】编译

VLMs帮助驾驶风格：VLM指导的轨迹评分器（如图3所示）由两个阶段组成。在第一阶段，需要一个包含标注周边图像的数据集，其中包括当前驾驶场景的描述、周围主体（即人类和车辆）的运动状态，以及当前的驾驶风格（即激进或保守）和权重调整值。通过迭代对话，Llama 3.2V吸收上下文信息，减少模型幻觉（model hallucinations）。

在第二阶段，使用GPT-4o生成一系列用于视觉问答（VQA）的提示模板。利用交通模式中固有的时空稳定性，以每五秒间歇性地激活Llama 3.2V，以细化驾驶行为。该模型在处理新图像时评估驾驶上下文，并为规则基系统中的预定义安全与舒适参数校准评分权重。这种方法允许对成本权重进行精确调整，增强驾驶风格对不同场景的响应能力。

3.4 端到端的驾驶舒适性指标

为了应对现有端到端方法中缺乏通用舒适度评估指标的问题，作者提出了一种通用指标来评估预测轨迹的舒适度和人类相似性。该舒适度指标旨在量化预测轨迹与真实轨迹之间的相似性，考虑动态可行性、颠簸和轨迹平滑度等因素。

在笛卡尔坐标系中的运动自行车模型，描述了具有完美滚动和无滑动的前驱和转向四轮车辆的动力学。状态向量定义为 $\mathbf x = (p_x, p_y, \theta, v, a_t, a_n, \phi, \kappa)^T$ ，其中$\mathbf p = (p_x, p_y)^T $表示后轮中心的位置信息，$ v $是相对于车辆车身坐标系的纵向速度，$ a_t $和$ a_n $分别表示纵向加速度和横向加速度，$ \phi $是前轮的转向角，而$ \kappa $是曲率。完整的轨迹表示$ \sigma(t) : [0, T_s]$形式化为：

$\sigma(t) = \sigma_i(t - \hat{T_i} ), A_i \in \{1,2,...,n \}, t \in [\hat{T}_i, \hat{T}_{i+1})\quad(12)$

其中 $T_s = \sum_{i=1}^{n} T_i$ 是整个轨迹的持续时间， $\hat{T}_i = \sum_{j=1}^{{i-1}} T_j$ 是第 $i$ 段的起始时间戳，且 $\hat{T}_1 = 0$ ，舒适度指标定义为：

$\sum\limits_{k-1}^3 \oint_0^{T_k}(w_1|a_t - a_t^*| + w_2|a_n - a_n^*| + w_3|\dot{\phi} - \dot{\phi}^*| + w_4|j_t - j_t^*| + w_5|j_n - j_n^*| + w_6| \dot{\kappa} - \dot{\kappa}^* |)$

其中 $T_k \in \{1s, 2s, 3s\}$ 表示考虑的轨迹持续时间， $a_t^*$ ， $a_n^*$ ， $\dot{\phi}^*$ ， $j_t^*$ ， $j_n^*$ 和 $\dot{\kappa}^*$ 是对应的真实轨迹值， $w_1,w_2,w_3,w_4,w_5,w_6$ 分别是纵向加速度、横向加速度、转向角速率、纵向颠簸、横向颠簸和曲率速率的权重因子。纵向和横向颠簸 $j_t$ 和 $j_n$ 分别计算为 $a_t$ 和 $a_n$ 的时间导数。

4. 实验结果

4.1 实验设置

数据集：实验在三个具有挑战性的数据集上进行，即nuScenes数据集和用于开放环路测试的真实世界数据集，以及用于闭环评估的OpenScene数据集。

实施细节：HE-Drive的训练过程分为多个阶段。首先，根据SparseDrive提出的两阶段方法训练稀疏感知组件，依据不同的感知主干网络，将其分为HE-Drive-S和HE-Drive-B。稀疏感知训练第二阶段的输出作为运动规划器的输入。运动规划器采用基于卷积网络的扩散策略生成准确且具有时间一致性的轨迹。最后，对整个HE-Drive系统进行端到端的训练。

4.2 在nuScenes上的实验结果

如表2所示，HE-Drive模型展示了相较于以往基于相机和激光雷达的方法的优越性能和效率。该模型在采用资源高效的视觉主干的同时，实现了最低的L2误差。具体而言，HE-Drive在均值L2误差上显著降低，减少幅度达到17.8%，同时碰撞率平均降低了68%。这一结果源于HE-Drive预测的优异强时间一致性。当结合更强大的视觉主干和尖端的扩散政策能力时，HE-Drive将平均L2误差和碰撞率进一步降低至0.58和0.06。

4.3 消融实验

本文使用HE-Drive-S作为消融实验的默认模型。

VLM的必要性：将VLM引入轨迹评分机制主要旨在促进一种持续的评估方法，以细化驾驶行为。缺乏VLM显著影响安全指标，3秒碰撞率大约增加了2.6倍（表3）。这一现象凸显了仅依赖规则基础评分的局限性，因为它难以辨别不同场景之间的细微差异，从而使轨迹确定变得复杂。

轨迹一致性的关键因素：通过历史速度和加速度数据丰富基于扩散的运动规划器，缩小了观察到的2秒和3秒轨迹预测之间的L2范数差异。当这些动力学参数作为条件变量集成到DDPM中时，可以确保生成一致的轨迹。这种一致性不仅取决于位置坐标，还扩展到每个导航点的速度和加速度。此外，利用历史最佳预测轨迹的时间相关性作为DDPM的条件元素证明是显著有利的，其省略可能导致L2范数增加1.1倍（表3）。

锚点数量的必要性：对规划锚点的数量进行了实验。如表4所示，随着规划锚点评估数量的增加，规划性能持续改善，直到在8个模式处饱和，再次证明了多模态扩散规划的重要性。

4.4 在Real-World上的实验结果

真实世界数据集的端到端规划结果如图5a所示。HE-Drive生成了一致的多模态轨迹，并使用轨迹评分器选择了成本最低的最合适轨迹。紫色和绿色轨迹由于偏离目标点和在转向操作时舒适度降低而具有较高的成本。

这一定性结果表明，基于规则的评分器优先考虑安全性，并且具有可解释性。此外，舒适度指标的计算（图6a）显示，HE-Drive的1秒轨迹段舒适度达到了100%，比VAD高出20%，而整体的3秒轨迹舒适度也高于VADv2，这表明本文的评分器在长期轨迹评估中的持久能力和效率。

4.5 在OpenScene上的实验结果

在闭环数据集OpenScene上的结果（表5）突显了HE-Drive相对于基准模型的绝对优势。在性能方面，该评分比HyDra-MDP-V8192高出2.65%。在效率方面，HE-Drive的性能优于其PDM-Closed和TransFuser。它的每秒帧数（FPS）比PDM-Closed高出2.56倍。此外，HE-Drive在FPS上比TransFuser高出14.01%（见图6b）。值得注意的是，HE-Drive的训练周期仅为22小时，既在执行方面更快，也在训练时间上更高效。

5. 总结讨论

本文提出的HE-Drive，它是一种以类人为中心的端到端自动驾驶系统，并通过集成稀疏感知模块、基于扩散的运动规划器以及一个由Llama 3.2V驱动的轨迹评分系统，用于解决现有方法在实现时间一致性和乘客舒适度方面的局限性。大量的实验表明，它在开放环路和闭环数据集中的表现优于现有的方法，生成了具有更好时间一致性和乘客舒适性的类人规划轨迹。©️【深蓝AI】

Ref：
HE-DRIVE: HUMAN-LIKE END-TO-END DRIVING WITH VISION LANGUAGE MODELS
编译｜巴巴塔
审核｜Los

第二届线下自主机器人研讨会（ARTS）即将召开👇
第二届ARTS报名入口即详情须知
 第二届ARTS奖学金通知
 ARTS 2024 学术辩论通知抢“鲜”发布