自动驾驶基础模型应该以能力为导向，而不仅是局限于方法本身

最新推荐文章于 2025-12-01 16:26:32 发布

转载最新推荐文章于 2025-12-01 16:26:32 发布 · 131 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247679728&idx=2&sn=7869d0ce2f3888b80f7377264e4f7d22&chksm=cf06d12cb41dddec025316b7443b9515a8c75db7f8ae876ecedeb05d7a4051287602c4df330f&scene=126&sessionid=0

文章标签：

#自动驾驶 #人工智能 #机器学习

基础模型正在为自动驾驶感知领域带来革命性变革，将该领域从专注于特定任务的深度学习模型，转变为在海量、多样数据集上训练的多功能、通用型架构。本综述探讨了这些模型如何应对自动驾驶感知中的关键挑战，包括泛化能力有限、可扩展性不足以及对分布偏移鲁棒性较差等问题。综述提出了一种全新的分类框架，该框架围绕动态驾驶环境中实现稳健性能所需的四项核心能力构建：通用知识、空间理解、多传感器鲁棒性和时序推理。针对每一项能力，本文首先阐明其重要性，随后全面回顾相关前沿方法。与传统的“基于方法”的综述不同，本研究的独特框架优先关注概念设计原则，为模型开发提供了“以能力为导向”的指导，并更清晰地揭示了基础模型的核心特性。最后，本文讨论了当前面临的关键挑战（尤其是将这些能力集成到实时、可扩展系统中所涉及的挑战），以及与计算需求、确保模型对幻觉问题和分布外失效问题的可靠性等相关的大规模部署挑战。此外，综述还概述了未来的关键研究方向，以推动基础模型在自动驾驶系统中的安全有效部署。

论文链接：https://arxiv.org/abs/2509.08302

一、引言

自动驾驶感知是智能交通系统的核心组成部分，其核心作用是使车辆能够实时解读周围环境并做出响应。感知栈包含一系列关键任务，如目标检测、语义分割和目标跟踪——这些任务对于车辆安全导航和高效决策至关重要。传统上，这些任务主要通过“专注于特定任务的深度学习模型”解决：这类模型专为单个感知任务设计，并在精心整理的人工标注数据集上训练。尽管这类模型在受控场景下表现出色，但其本质上存在可扩展性有限、泛化能力较差的问题。当面临“长尾场景”（包括频率低但对安全至关重要的事件，或训练数据中未充分覆盖的罕见情况）时，它们的性能往往会大幅下降。此外，当环境条件、传感器配置或运行场景发生变化导致“分布偏移”时，这类模型也难以有效适应。

近年来，基础模型的发展突破为自动驾驶感知领域带来了变革性转折。基础模型指通过自监督或无监督学习策略，在海量、多样的数据集上进行预训练的大规模通用神经网络。通常，这类模型基于Transformer等架构构建——这类架构能有效建模数据中的复杂交互关系，使模型无需显式监督即可学习通用表征，并捕捉世界的潜在知识。预训练过程中，模型会接触文本、图像、视频乃至其他传感器数据等多模态数据，从而习得可用于各类下游任务的通用特征。

在自动驾驶场景中，基础模型凭借其固有的广泛泛化能力、高效迁移学习能力以及对特定任务标注数据集依赖的降低等优势，展现出显著价值。由于在预训练阶段已编码了丰富的通用知识，这些模型能更轻松地适应多样且动态的真实驾驶环境，在传统监督学习方法难以覆盖的场景中仍能保持良好性能。此外，基础模型习得的“统一表征”有助于感知任务间的无缝集成，提升对复杂驾驶环境解读的一致性和连贯性。

基础模型需要海量数据和大规模架构才能编码广泛且可泛化的知识。在自动驾驶领域，仅扩大模型规模和数据量是不够的，还需应用专门技术和针对性训练策略——这些方法能引导模型习得与自动驾驶感知独特挑战高度相关的核心能力。基于这一需求，本文明确并详细阐述了构建和优化“专为自动驾驶感知设计的基础模型”所需的四个关键维度：

通用知识：模型需能适应广泛的驾驶场景，包括罕见或从未见过的情况；需能合理推断可能的结果，并对未知智能体（如突发出现的行人、异常车辆）进行逻辑推理。
空间理解：高效的感知模型必须具备对3D空间结构和空间关系的深刻理解，包括检测已知和未知目标、推理目标间的物理交互及未来轨迹。
多传感器鲁棒性：系统需在各类环境条件（如不同天气、光照变化、传感器噪声）下保Å持高性能；同时，对传感器部分失效的鲁棒性也是保障安全的关键。
时序推理：除实时感知外，模型还需捕捉时序依赖关系并预测环境的未来状态，包括建模运动模式、识别被遮挡的智能体、推理目标恒存性（即目标不会因暂时遮挡而消失）。

针对上述每个维度，本文首先明确其在“自动驾驶感知基础模型”中的重要性，随后全面分析用于有效开发和增强对应能力的核心技术与方法（这些技术如图1所示）。文中还通过大量实例阐明技术的实际应用方式，突出其在真实自动驾驶场景中的相关性。最后，本文批判性地分析了当前在提升这些能力方面面临的挑战，并提出未来可能的研究方向。

如表1所示，现有关于“自动驾驶领域基础模型”的综述多采用“基于方法”或“基于任务”的分类框架。这类综述虽有价值，但往往关注感知之外的广泛应用（如预测、规划），因此无法全面覆盖稳健感知所需的所有核心能力——多传感器鲁棒性、空间理解等关键维度常被忽略。与之相反，本综述提出了“专为感知领域设计的基于能力的框架”。通过围绕上述四项核心能力展开讨论，本分类框架能提供更聚焦、更深入的分析：不仅明确了“以感知为核心的基础模型”的关键组成部分，还为研究人员识别和解决特定缺陷提供了系统性指导，从而推动该关键领域的针对性创新。

二、背景知识

本章将阐述支撑本文核心讨论的若干关键领域背景，为后续自动驾驶感知基础模型的核心能力分析奠定理论基础。

自监督学习

自监督学习已成为训练基础模型的重要范式，其核心价值在于降低对昂贵标注数据的依赖。基础模型旨在学习具有广泛适用性、可跨任务与跨领域泛化的表征，这通常需要在海量且多样的数据集上进行预训练。然而，获取该规模下的细粒度标注数据在实际中往往难以实现。自监督学习通过挖掘数据自身固有的结构或模式作为监督信号，成功解决了这一难题——模型能够直接从原始输入数据中学习高质量表征，进而提升可扩展性与跨领域适应性。因此，自监督方法已成为训练“可作为各类下游应用通用骨干网络”的基础模型的核心技术。

对比学习

对比学习已成为自监督表征学习的基石，能够让模型从无标注数据中提取语义相关特征，其核心思路是通过对比相似与不相似样本实现训练。具体而言，模型需学习将相似（“正”）样本对的表征在嵌入空间中拉近，同时将不相似（“负”）样本对的表征推远。

以计算机视觉领域为例，SimCLR、MoCo等对比学习技术通过以下方式学习稳健且语义丰富的表征：对同一张图像进行裁剪、颜色扭曲或几何变换等操作，生成多个不同的增强视图；训练模型使这些来自同一张图像的增强视图表征彼此趋近（即最大化一致性），同时与来自其他图像的增强视图表征保持距离（即进行对比）。这种训练方式促使模型聚焦于图像的高层特征——这类特征对表面变化具有不变性，进而提升其在分类、检测、分割等下游任务中的迁移能力。

掩码自编码器

掩码自编码器（Masked Autoencoders, MAE）采用了与对比学习截然不同的自监督学习思路：通过掩码输入数据的大部分内容，训练模型重建缺失部分。He等人在计算机视觉领域提出该方法，具体流程为：随机移除图像的部分块（patch），随后训练模型重建这些缺失区域（如图2所示）。例如，在他们的研究中，仅利用视觉Transformer（Vision Transformers）对可见图像块进行编码，再通过一个轻量级解码器完成被掩码图像的重建。

这种设计迫使编码器捕捉图像区域间的高层语义结构与关联，而非记忆局部像素模式。MAE的优势在于：无需标注即可在超大规模数据集上训练，同时生成的表征仍可有效支持分类、检测等各类下游视觉任务。这一特性使其成为训练“可跨任务与数据分布泛化的基础模型”的理想选择[15,16]。

知识蒸馏

随着深度学习模型规模与能力的不断提升，其在实际应用部署中往往面临三大挑战：计算成本高昂、内存占用量大、难以满足实时推理需求。此外，大规模模型在预训练阶段习得的知识，通常无法直接迁移至为特定下游任务优化的小型模型中。

知识蒸馏的核心实现方式

知识蒸馏的核心思路是训练学生模型模仿教师模型的输出或内部行为，具体可分为三类实现方式：

输出级蒸馏：让学生模型匹配教师模型的预测概率分布。通过在softmax函数中引入温度参数(T)（用于调整概率分布的平滑度），使学生学习教师的“软化概率分布”。目标函数为最小化师生概率分布间的Kullback-Leibler（KL）散度，公式如下：

其中，、分别表示教师模型（为教师模型的logits）与学生模型（为学生模型的logits）的软化概率。
特征级蒸馏：使学生模型的中间表征与教师模型对齐。这通常通过最小化师生模型特征图（为教师特征，为学生特征）间的L2距离实现，公式如下：
关系级蒸馏：进一步迁移特征空间中数据点间的几何关系。不同于匹配单个特征，该方法捕捉结构化知识——例如，通过惩罚师生模型中“数据点对表征的距离与角度差异”，让学生学习教师对数据关联的建模方式。

在训练过程中，学生模型通常需同时优化“标准监督损失”与上述一种或多种“蒸馏损失”，以平衡任务性能与知识迁移效果。

知识蒸馏的范式分类

根据监督信号的来源，知识蒸馏可分为三类范式：

监督式蒸馏：教师与学生模型均在标注数据上训练，学生额外学习教师的软化输出或特征；
半监督式蒸馏：利用未标注数据，由教师模型生成伪标签（pseudo-labels）指导学生训练，典型案例为Noisy Student；
自监督式蒸馏：无需任何标签，依赖预训练任务（pretext tasks）实现蒸馏，例如BYOL、DINO——通过对比学习或对齐目标，让学生模型匹配“动量更新教师模型”的特征。

3D重建

3D重建指从图像、深度图等二维观测数据中推断场景三维结构的过程，是计算机视觉与图形学的基础任务，广泛应用于场景理解、增强现实、机器人导航等领域。对于基础模型而言，3D重建是获取“空间与几何先验知识”的关键途径——它能帮助模型更深刻地理解物理世界，提升在深度估计、运动建模、目标恒存性推理等任务中的泛化能力。

传统3D重建方法

传统3D重建主要依赖几何技术，核心方法包括：

运动恢复结构（Structure-from-Motion, SfM）：通过多视角图像间的特征匹配与三角化，估计相机姿态并重建场景点云；
多视图立体匹配（Multi-View Stereo, MVS）：利用多个校准视图的像素对应关系，生成稠密深度图与场景三维模型；
同时定位与地图构建（Simultaneous Localization and Mapping, SLAM）：在未知环境中，实时估计机器人（或相机）位置并构建环境地图。

这类方法通过多视角校准信息，显式构建点云、网格、体素网格等三维表征，但其依赖手工设计特征与基于优化的流水线，灵活性与适应性有限。

基于学习的3D重建方法

随着数据可用性与计算能力的提升，传统几何流水线逐渐被“基于学习的方法”补充或替代——这类方法通过数据驱动建模复杂场景结构与动态变化，减少对人工设计特征与刚性几何假设的依赖，其中最具代表性的是神经辐射场（NeRF）与3D高斯溅射（3D Gaussian Splatting）。

神经辐射场：NeRF是3D场景表征与新视图合成领域的变革性方法，其核心是利用神经网络学习从图像观测中提取的连续体素函数。与传统显式表征（如点云、网格）不同，NeRF采用隐式表示：将场景建模为连续函数，其中为空间位置，为观测方向，为RGB颜色，为体素密度。

通过可微体素渲染方程，NeRF实现了照片级真实感渲染，公式如下：

其中，为累积透射率，为相机射线在时刻的位置。该方法仅需稀疏多视角图像（已知相机姿态），即可生成高质量新视图，但存在计算成本高的问题——需对每条射线进行密集采样与神经网络推理，难以满足实时需求。

3D高斯溅射：为解决NeRF的效率问题，3D高斯溅射作为一种高效替代方案应运而生。它采用显式表示：将场景建模为一组3D高斯椭球体集合，其中为均值位置，为编码各向异性形状的协方差矩阵，为RGB颜色，为透明度。

3DGS通过可微前向光栅化器将高斯体投影至图像平面，再利用alpha合成累积其贡献。与NeRF的“密集采样+神经网络推理”不同，3DGS直接通过投影与合成完成渲染，在保证照片级真实感的同时大幅提升速度，更适用于自动驾驶等实时场景（如图3所示）。

扩散模型

去噪扩散概率模型（Denoising Diffusion Probabilistic Models）是一类强大的生成模型，在高质量图像、视频、3D结构生成任务中表现卓越。其核心原理是“学习逆转预定义的加噪过程”：在训练阶段，通过多步迭代向数据中添加高斯噪声；模型则学习逐步去除这些噪声，最终在推理阶段实现“从纯噪声生成真实样本”。

这种结构化、渐进式的生成过程使扩散模型具备广泛的实用性：在文本到图像生成中，Stable Diffusion等模型以自然语言描述为条件，生成与文本提示高度匹配的图像；在视频生成中，扩散模型可基于单帧或运动线索合成时序一致的视频序列；在3D生成中，它能与神经场或体素网格结合，生成真实的目标形状或场景。这些案例充分体现了扩散模型捕捉复杂数据分布的能力——这对基础模型的通用特性至关重要。对于基础模型而言，扩散模型提供了一种稳健的“跨模态通用先验学习机制”，具备可扩展性、组合性与可解释性——这些属性是构建灵活可复用生成骨干网络的关键。

通用基础模型

通用基础模型指在“广泛且多样的数据集”上训练的大规模神经网络，目标是习得“跨大量下游任务通用且可复用的表征”。这类模型通常通过自监督或弱监督目标预训练，设计为“通用骨干网络”，可适配视觉、语言、音频、3D数据等多种模态。其核心思想是：通过海量数据与模型规模的双重优势，让单个模型内化“跨任务、跨领域通用的结构与语义知识”，减少对“任务专用从头训练”的需求。

这种通用性与传统深度学习模型形成鲜明对比——传统模型高度专用化于单个任务，虽可预测性强，但对新场景的适应性有限。因此，基础模型成为需灵活性、可扩展性与快速适配能力的AI系统（如机器人感知、自动驾驶决策规划模块）的理想解决方案。

视觉基础模型

视觉基础模型是在“多样且海量的视觉数据集”上训练的大规模神经网络，目标是习得通用视觉表征。这类模型无需任务专用重训练，即可完成分类、分割、目标检测等多种视觉任务。其核心优势在于“零样本/少样本泛化能力”——能适配未见过的类别与任务。

例如，分割一切模型（Segment Anything Model, SAM）通过“提示驱动接口”，以极少监督实现对新目标的分割，兼具高适应性与标注效率；DINO等模型则通过自监督目标学习语义丰富的表征，在各类下游视觉基准测试中表现稳健。

大语言模型

大语言模型是基于Transformer架构的神经网络，在海量文本语料上训练，目标是习得广泛的语言知识与推理能力。这类模型能理解并生成跨领域的人类语言，通常通过“下一个token预测”或“掩码语言建模”任务预训练。

大语言模型的显著特征是“零样本/少样本泛化能力”，可高效完成问答、摘要生成、代码编写、对话等多种语言任务，因此成为构建“需自然语言理解与生成能力的智能系统”的核心组件。

视觉语言模型

视觉语言模型融合了视觉基础模型与大语言模型的优势，通过学习“视觉内容与文本语义对齐的联合表征”，实现跨模态理解与推理。这类模型在“图像-文本配对数据”上预训练，能以开放词汇方式关联视觉元素与描述语言。

例如，对比语言-图像预训练模型（CLIP）通过“最大化配对图像-文本相似度、最小化非配对样本相似度”，学习跨模态对齐表征，支持零样本分类（即通过对比图像嵌入与类别文本描述嵌入实现分类）；Grounding DINO在此基础上扩展至结构化视觉任务（如目标检测、分割），利用语言提示在复杂场景中定位目标。这类模型显著提升了感知系统的表达能力与泛化性，尤其在自动驾驶场景中，“语言感知的场景解读”能增强系统稳健性与交互性。

模型对比分析

为清晰区分不同模型的特性，下表从“核心模态、能力、训练方式、示例模型、泛化性、专业性、计算成本”七个维度，对比传统深度学习模型与各类基础模型：

综上，基础模型相较于传统深度学习模型，在自动驾驶感知中的核心优势在于“更优的泛化性与适应性”。传统模型虽可预测性强、计算成本低，但性能局限于预定义任务；而基础模型则呈现不同范式——大语言模型提供文本高级推理能力，视觉基础模型生成通用视觉表征以支持“任意目标感知”，视觉语言模型实现视觉-语言跨模态对齐理解。这种“以更高计算成本换取泛化能力跃升”的特性，使其成为应对真实驾驶场景不可预测性的变革性方案。

三、感知模型中的通用知识

在自动驾驶感知场景中，通用基础模型能够对稳健的视觉、语义及推理知识进行编码，这些知识中蕴含着隐含的世界知识。通过利用跨领域见解，感知系统不仅能更高效地泛化到新环境、提升在不同条件下的鲁棒性，还能减少对海量且高昂的标注驾驶数据的依赖。

为将这些基础模型集成到自动驾驶技术栈中，目前主要形成了三种核心机制。第一种是特征级蒸馏：利用基础模型的输出或中间特征，对规模更小的任务专用感知网络进行监督。这种方法能得到轻量化模型——既继承了基础模型的知识，又能保持较高的推理效率。第二种是伪标签监督：借助基础模型生成自动标注结果（如分割掩码、边界框），这些伪标签可支持感知网络的可扩展、标签高效型训练，不仅减少了对昂贵人工标注的需求，还能助力模型适应不同领域。第三种是直接集成：将基础模型本身纳入感知流水线，作为特征提取器或提供预学习丰富表征的模块化组件，无需从头重新训练即可直接利用强大的预训练特征。这三种机制共同助力通用模型适配自动驾驶感知的专业化、安全关键型需求，图4展示了目前将基础模型集成到自动驾驶技术栈中常用的三种方法。

视觉基础模型（VFM）

视觉基础模型（Vision Foundation Models, VFMs）在提升自动驾驶感知性能方面的潜力正得到广泛探索。由于视觉基础模型本质上属于视觉模型，经过适当改造（如将图像特征投影到3D空间，或与点云数据对齐），它们不仅可直接集成到2D图像流水线，还能扩展至3D感知流水线。这种多功能性使视觉基础模型能够在多模态场景下提供高层语义理解，但在实际应用中，直接集成常受限于高计算成本与高延迟问题，尤其难以满足实时应用需求。因此，视觉基础模型更常被用作“丰富特征源”——通过蒸馏将特征传递给更轻量化的模型，或作为“伪标签生成器”，在无需人工标注的情况下启动训练。

特征级蒸馏

视觉基础模型的蒸馏常以3D激光雷达（LiDAR）模型为目标：由于激光雷达数据稀缺，研究人员会借助基于2D图像的视觉基础模型实现蒸馏。例如，SLidR通过对比学习，将DINO等2D视觉基础模型的知识蒸馏到3D激光雷达网络中——具体做法是对齐图像超像素与对应激光雷达点的特征。这种跨模态蒸馏使3D模型无需密集3D标签，就能继承2D表征的语义丰富性。后续研究SEAL对该方法进行了改进：不再基于低层次视觉相似性对像素聚类，而是利用SAM、SEEM等分割类视觉基础模型生成高质量语义超像素；同时引入语义引导的对比蒸馏框架，仅对跨模态的语义相似区域进行特征匹配，既减少了噪声监督的影响，又提升了特征传递效果。

伪标签监督

视觉基础模型还能生成伪标签，这不仅降低了对昂贵人工标注的需求，还能将大规模视觉语言模型（VLMs）中编码的通用视觉知识迁移到任务专用感知模型中，进而提升模型的语义理解能力与泛化能力。

例如，SAL利用SAM生成2D实例掩码，再通过几何校准将这些掩码投影到3D点云上——这些掩码可作为监督信号，用于训练3D实例分割模型，实现了无需人工3D标注即可将图像中的精细目标级信息迁移到点云。此外，SAM4UDASS在无监督领域自适应场景中，借助SAM生成的掩码提升伪标签质量：它选择性地整合SAM输出中的高置信度区域，优化分割预测结果，尤其对传统伪标签方法可靠性较低的小类别、罕见类别有益。OccNeRF则采用多源监督策略：结合图像衍生深度图与基于SAM的分割结果，指导无激光雷达场景下3D占用场的学习。这种混合方法仅通过RGB输入就能实现几何感知型场景理解，展现出视觉基础模型伪标签方法作为传统激光雷达方法补充方案的灵活性——激光雷达虽能提供精确的深度感知，但基于RGB输入的视觉基础模型标签无需昂贵3D标注即可提供丰富语义信息。

视觉语言模型（VLM）

视觉语言模型（Vision-Language Models, VLMs）为将语言中的高层语义理解融入视觉感知模型提供了有效途径，这在自动驾驶面临的开放世界场景中尤为重要。与视觉基础模型类似，视觉语言模型的应用也主要集中在蒸馏与伪标签生成两大方向。

特征级蒸馏

CLIP等视觉语言模型通常包含两个组件：文本编码器与图像编码器，二者分别负责从对应模态中提取特征。这种双编码器结构支持单独或联合使用任一模态，在自动驾驶场景中优势显著——文本线索与视觉内容可相互补充，进一步提升感知性能。

聚焦文本模态，Open3DWorld仅利用CLIP的文本编码器提升激光雷达点云的3D目标检测性能：具体而言，它通过CLIP文本编码器将目标类别标签转换为文本嵌入，并通过跨模态匹配机制，将这些嵌入与激光雷达鸟瞰图（BEV）特征对齐。这种设计使模型能将大规模视觉-语言预训练中的丰富语义先验融入3D检测任务，无需仅依赖点云特征，就能更好地泛化到不同目标类别与开放集场景。

转向图像模态，视觉语言模型蒸馏面临一个问题：CLIP等模型基于图像-文本对训练以实现全局分类，虽能捕捉粗粒度语义，但缺乏精细的局部细节。而自动驾驶任务需要密集的像素级或目标级监督，因此研究人员更倾向于使用“融入局部信息的视觉语言模型”——这类模型要么经过微调以适应密集预测任务，要么扩展了像素级监督机制，其生成的特征能更好地匹配复杂驾驶感知所需的空间与语义分辨率[]。

例如，在语义分割任务中，OVO将LSeg（一种基于像素级监督与文本监督训练的开放词汇分割模型）的图像特征，蒸馏到3D占用网络中。OVO设计了跨模态蒸馏流水线：通过多视图一致性与体素级对比学习，将LSeg的2D预测语义知识迁移到3D体素中，无需3D真值标签就能为任意开放词汇类别生成语义占用网格。类似地，CLIP2Scene对MaskCLIP（通过掩码自蒸馏保留局部语义结构的模型）的文本与图像特征均进行蒸馏，并通过对比损失将这些特征与点云表征对齐，实现了无需标注的点云语义分割；此外，该模型还引入选择性正采样策略，通过将3D特征与语言引导的局部语义对齐，提升3D特征的区分能力。

尽管上述案例均采用适配局部语义的视觉语言模型，但传统CLIP（聚焦全局图像级特征）若与提供局部线索的模型结合，也能发挥效用。例如，VLM2Scene提出了区域感知流水线：由SAM生成细粒度掩码，BLIP-2为每个区域生成描述文本，CLIP则将这些描述编码为局部化嵌入；通过区域对比损失，使掩码的视觉特征与这些嵌入对齐，既保留了空间粒度与语义多样性，又弥补了CLIP仅基于全局训练的不足，提升了开放世界驾驶场景中的细粒度感知性能。

伪标签监督

与视觉基础模型类似，视觉语言模型在目标检测任务中也具有双重作用：不仅可作为特征蒸馏的来源，还能生成伪真值框。视觉语言模型既能从大规模图像-文本预训练中提供语义监督，又能生成辅助标签，以可扩展、标签高效的方式训练下游模型。

UP-VL提出了统一的点-视觉-语言框架：利用OpenSeg提取密集语义特征，并将其蒸馏到3D检测器网络中。除特征蒸馏外，UP-VL还结合OpenSeg的文本输出与时空聚类、滤波算法，自动生成3D边界框与目标轨迹，无需人工标注即可得到高质量伪标签——这些伪标签可作为监督信号，支持3D检测器的可扩展训练。类似地，OpenSight也通过对齐2D视觉-语言特征与3D点云表征实现跨模态蒸馏，但它并未生成伪框，而是将Grounding DINO作为教师模型，直接监督3D目标检测。这种方式无需启发式框提案，使OpenSight能从大规模开放世界训练中继承目标定位能力。

表3概述了近年来利用视觉基础模型与视觉语言模型改进自动驾驶感知的主要方法。

大语言模型（LLM）

凭借强大的抽象、推理与指令遵循能力，大语言模型（Large Language Models, LLMs）近年来在自动驾驶感知领域受到广泛关注——其潜力在于能将多模态传感器数据与复杂决策过程统一到基于语言的框架中。在实现层面，这通常需先通过专用编码器处理原始传感器数据以提取特征向量，再将这些向量投影到大语言模型的词嵌入空间，生成可与文本一同处理的“传感器token”。例如，LidarLLM就能利用语言提示对融合后的传感器数据进行对齐、解释与解读，提升系统的灵活性与可解释性。

由于语言特征通常具有抽象性、上下文依赖性与分布性，难以蒸馏到需要结构化、局部化表征的传统感知模型中，因此近年来的方法更倾向于将大语言模型直接集成到完整的自动驾驶流水线中。核心实现策略是将驾驶任务重构为序列语言建模问题：构建统一的token词汇表，其中不仅包含单词，还涵盖离散化的传感器测量值与动作指令；随后训练大语言模型预测序列中的下一个token——该token既可为用于解释的单词，也可为用于车辆控制的动作token。

传统上，大语言模型常基于传统方法获取的感知数据输入生成规划结果，GPT-Drive就是典型案例：它将感知结果转换为描述场景上下文（如检测到的目标、道路布局）的文本描述，将规划任务构建为语言建模问题，并通过文本提示引导驾驶行为。在此基础上，OmniDrive提出了耦合更紧密的框架：大语言模型直接以多视图图像特征与3D空间线索为条件，实现感知与规划的联合推理。在OmniDrive中，模型利用多视图视觉编码与3D感知语言提示，实现细粒度场景理解以指导下游规划决策，使规划器能利用更多低层次感知信息，而非直接采用结构化的高层次感知输出。

近年来，更多方法开始采用端到端流水线：大语言模型直接接收最少处理的传感器输入，以推导规划决策。尽管并非严格需要中间感知输出，但研究表明，在训练过程中融入感知相关任务能提升模型的推理能力。例如，DriveGPT4在视觉-文本对上进行微调，将相机输入与人工标注的驾驶相关语义描述配对；与之不同，Dolphins采用思维链（chain-of-thought）提示机制，并加入感知预训练阶段——让大语言模型学习回答关于目标与空间关系的问题，这些聚焦感知的任务能丰富模型的内部表征，提升其上下文感知规划能力。

这一发展趋势为将细粒度感知集成到大语言模型框架奠定了基础。例如，EMMA通过在语言模型流水线中直接融入密集3D目标检测能力，扩展了基于大语言模型的感知方法。它将传统3D感知任务重构为一系列多模态问答提示，使大语言模型能从编码后的传感器输入中预测目标类别、3D边界框与空间关系——不仅实现了高精度的目标检测与定位，还能输出具有更高几何一致性的轨迹坐标。因此，EMMA在3D目标检测任务中展现出了最先进的性能，且在下游运动规划任务中显著优于现有方法。

表4总结了本节所述基于大语言模型的驾驶系统中感知的集成方式。

通用知识面临的关键挑战

视觉基础模型（VFMs）、视觉语言模型（VLMs）与大语言模型（LLMs）这三类模型各有优势，也存在固有的局限性。视觉基础模型擅长从大规模图像预训练中学习密集视觉语义，但在适配专用传感器数据时面临域间隙问题，且因训练聚焦2D，往往缺乏显式的3D几何理解；视觉语言模型具备强大的开放词汇识别能力，支持灵活监督，但语义优势的背后是几何细节不足，且依赖经验性的提示工程；大语言模型则在统一推理与人类可解释性输出方面表现突出，但输出缺乏精确的像素级定位，且易产生危险的“幻觉”（输出与现实不符的内容）。这些权衡关系（如表5所示）是理解当前研究现状与需攻克的特定障碍的关键，下文将详细阐述其中最紧迫的跨领域挑战。

域间隙问题

核心挑战之一是弥合基础模型预训练阶段习得的通用知识（通常基于网页级文本与2D图像数据）与自动驾驶感知特定需求之间的间隙。激光雷达、雷达等自动驾驶专用传感器能提供关键的3D几何与速度信息，但将其集成到基础模型中难度较大——这些传感器生成的数据模态与基础模型常训练的网页数据差异显著，且可用的标注自动驾驶传感器数据规模，远不及预训练所用的互联网级语料。这种差异导致现有基础模型难以直接应用或微调以充分利用这些关键传感器流，因此亟需在跨模态学习与融合架构方面取得突破。

因此，推进域适配方法至关重要——这些方法需更有效地弥合预训练数据集与自动驾驶传感器数据之间的分布间隙，不仅要对齐低层次特征，还需减少易导致部署场景中性能下降或不安全预测的高层次语义失配。

幻觉风险

“幻觉”现象（模型输出与提供的传感器现实不符）会带来严重的安全风险。这种偏离真值的输出可能导致灾难性故障，因此可靠性成为首要关注点。要解决这一问题，需深入探究故障根源（无论是数据偏差、架构局限还是推理缺陷），以指导鲁棒性应对措施的开发。

当前研究正从单纯的幻觉检测转向主动缓解策略。一种有潜力的方向是将模型输出锚定在外部可验证信息上，例如探索检索增强生成（Retrieval-Augmented Generation）技术，迫使模型基于可信知识库（如高精地图、交通法规库）进行推理，而非生成未经验证的结论。另一种方向是通过架构改进实现内部验证，例如训练模型具备“自我批判”机制，对自身输出的物理合理性与逻辑一致性进行检验。此外，开发严格的基准测试也至关重要——不仅用于检测幻觉，还需评估这些新兴缓解技术在复杂对抗场景中的有效性。

延迟与效率问题

将基础模型部署到自动驾驶车辆严苛的软硬件约束环境中，面临着显著的实际障碍。基础模型庞大的规模与高昂的计算成本，与自动驾驶对实时处理的需求存在直接冲突——感知到动作的延迟需控制在毫秒级，而大型基础模型的推理很容易超出这一预算，导致其输出无法用于即时车辆控制。

这就需要在模型优化技术（如量化、剪枝、知识蒸馏）方面开展大量研究，以构建更小、更高效的模型变体，同时避免性能大幅下降。此外，将这些模型集成到现有高度优化的自动驾驶软件流水线中，也是一项复杂的工程任务——需仔细考虑数据流、硬件加速与整体系统架构，以确保安全性与可靠性。

可解释性问题

大型感知基础模型缺乏可解释性，这是其在自动驾驶系统中安全、可信部署的关键障碍。为应对这一挑战，研究人员正越来越多地探索自然语言与多模态解释技术，试图将复杂的AI决策转化为人类可理解的表述。有效的可解释性机制不仅有助于调试、确保符合安全法规，还能增强用户与监管机构的信任。例如，“Driving with LLMs”通过从结构化场景表征生成自然语言解释，提升了可解释性，这一研究也反映了自动驾驶领域向语言驱动、可解释AI系统发展的广泛趋势。

四、空间理解

空间理解是自动驾驶感知的核心能力之一，其目标是让自动驾驶车辆构建环境的连贯3D表示，捕捉物体身份、几何形状与上下文关系。传统感知系统依赖离散检测（如边界框）和手工设计的处理流程，在不规则或陌生场景中表现不佳；而具备空间理解能力的模型通过嵌入细粒度几何与语义信息，能以更整体的视角解读环境，为下游任务（如目标检测、运动预测、路径规划）提供统一且一致的3D基础表示。

体积模型（Volumetric Models）

体积模型通过将传感器输入（主要是相机图像和LiDAR点云）解读为3D场景的投影，构建密集、整体的环境表示，核心思路是突破传统2D投影的局限，直接建模3D空间的占用状态、语义属性和几何结构。该类模型主要分为三类实现路径：

基于显式占用网络的3D学习

显式占用网络将自动驾驶车辆周围的空间离散化为体素网格（voxel grid），预测每个体素的“占用状态”（是否有物体）和“语义类别”，本质上是对传统占用网格映射（Occupancy Grid Mapping）的神经化升级。这种显式3D表示能捕捉2D投影中丢失的复杂环境结构，是3D目标检测、语义分割等任务的关键基础。

代表性模型包括：

TPVFormer：将多视角图像特征正交投影到鸟瞰图（BEV）、正视图和侧视图三个平面，通过Transformer聚合多平面空间特征，形成连贯的体积理解；
Voxformer：采用两阶段 pipeline 完成单目语义场景补全，先预测深度生成稀疏体素候选，再通过Transformer进行体积推理优化；
OccFormer：用双路径Transformer分离水平体素平面内的局部与全局空间编码，结合“保留池化”（preserve-pooling）和“类别感知采样”提升特征保真度；
SparseOcc：提出稀疏查询网络，基于2D分割线索选择性采样体素令牌，在无需密集3D计算的前提下实现高效体积推理。

基于神经渲染与2D监督的3D学习

为解决3D标注数据稀缺的问题，该路径利用更易获取的2D数据（如图像语义标签、深度图）作为监督信号，通过神经渲染技术反向学习3D体积表示，核心技术包括神经辐射场（NeRF） 和3D高斯 splatting（3DGS）。

神经辐射场（NeRF）：NeRF通过神经网络学习连续的体积函数，建模3D空间位置与颜色、密度的映射关系，其核心是体积渲染方程，通过对相机射线的积分实现 photorealistic 渲染，公式如下：

其中：

：相机射线（从相机原点出发的一条射线）；
：射线的近裁剪平面和远裁剪平面（限定积分范围）；
：累积透射率，表示射线从起点到位置未被遮挡的概率，公式为；
：位置处的体积密度（值越大表示该位置被物体占据的概率越高）；
：位置在观察方向下的RGB颜色；
：射线最终的渲染颜色（即2D图像像素值）。

在自动驾驶场景中，NeRF的衍生模型通过适配动态环境需求，实现更精准的空间理解：

HybridOcc：结合Transformer特征提升机制与NeRF风格的深度引导体积渲染，通过射线推理优化占用预测；
RenderOcc：将3D场景通过体积渲染投影到2D视图，利用2D语义和深度标签实现监督；
SelfOcc：采用自监督框架，将体积预测建模为符号距离场（signed distance fields），通过可微分多视图渲染和立体引导深度候选优化，从时序图像序列中推断3D占用。

3D高斯Splatting（3DGS）：3DGS是NeRF的高效替代方案，通过显式3D高斯椭球集合表示场景，每个高斯包含位置（）、协方差矩阵（，编码各向异性形状）、RGB颜色（）和透明度（），公式化表示为。

与NeRF的“射线采样+MLP推理”不同，3DGS通过可微分前向光栅化将高斯直接投影到图像平面，结合alpha合成累积贡献，在保证渲染质量的同时大幅降低计算延迟，更适配自动驾驶实时需求。代表性衍生模型包括：

RenderWorld：用3DGS从视觉输入生成自监督3D标签，支持空气/物体分离编码和4D占用预测，构建感知与规划统一的世界模型；
GaussianFlowOcc：结合时序流建模与高斯Transformer架构，预测占用动态，减少对密集3D卷积的依赖；
GaussianFormer：通过稀疏卷积和注意力机制将2D图像特征转换为3D高斯，再聚合为体素级占用预测。

基于LiDAR引导监督的3D学习

该路径利用LiDAR直接提供的3D几何信息作为监督，弥补2D监督在几何精度上的不足。例如：

SurroundOcc：聚合时序LiDAR扫描数据，通过复杂重建技术生成更密集、完整的伪真值标签，用于微调体积模型；
UnO（Unsupervised Occupancy）：从无标注LiDAR序列中学习4D（时空）连续占用场，利用LiDAR的物理特性（射线返回点表示“占用”，射线路径表示“自由空间”）构建自监督信号，无需显式标签即可推断遮挡区域和未观测区域的占用状态。

3D掩码自动编码器

3D MAE是掩码自动编码器（MAE）在3D领域的延伸，核心思路是“掩码输入-重建输出”：通过随机掩码3D数据（如LiDAR点云、体素），训练模型重建缺失部分，迫使模型学习场景级结构、物体边界和空间关系，为自动驾驶3D感知提供强初始化。

由于3D数据（如LiDAR点云）具有稀疏、不规则的特点，3D MAE需针对数据结构设计专用掩码与重建策略，代表性模型包括：

Voxel-MAE：将点云体素化为3D网格，掩码部分体素，训练模型重建缺失体素的特征或占用状态，学习3D形状的全局结构；
BEV-MAE：将点云投影到鸟瞰图（BEV）平面，掩码BEV区域，同时增加点密度预测任务，强化空间感知能力；
GeoMAE：不局限于重建点坐标，而是掩码点云区域后预测更高阶几何属性（如质心、表面法向量、曲率）和占用状态，通过更具挑战性的自监督任务学习判别性特征；
MAELi：在LiDAR原生球坐标空间中掩码，区分“空空间”与“遮挡区域”设计重建损失，仅用大规模无标注LiDAR单帧数据即可训练出强3D结构理解能力，为目标检测、分割任务提供优秀初始化。

空间理解方法的关键挑战

尽管体积模型和3D MAE显著提升了空间理解能力，但在自动驾驶实时部署中仍面临三大核心挑战：

延迟与计算约束

密集体积方法（如语义占用网格）和神经渲染技术（如NeRF）对计算和内存需求极高，与自动驾驶的实时性要求冲突：

占用网络依赖高分辨率体素网格和昂贵的3D卷积，推理延迟高；
NeRF需密集射线采样和逐点MLP推理，难以满足毫秒级响应；
3DGS虽渲染更快，但处理动态场景和在线更新的能力有限。这些方法需通过模型压缩（如量化、剪枝）、近似计算等手段优化，才能适配车载嵌入式硬件。

系统集成复杂性

空间理解模型的输出（如占用图、辐射场）与规划模块依赖的“物体中心表示”（如边界框、轨迹）存在表示鸿沟：

需额外处理（如实例分割、体积-物体转换）才能衔接感知与规划，可能引入延迟和不一致性；
3D MAE虽提升下游模型特征质量，但未改变空间输出的结构，无法直接解决表示不兼容问题。目前需通过混合设计（结合密集空间上下文与稀疏物体线索）平衡兼容性与性能，但维持多模态一致性仍是难点。

监督与3D真值验证

尽管2D监督和LiDAR自监督降低了训练阶段的3D标注依赖，但高质量3D真值仍是模型评估和基准测试的核心需求：

大规模3D数据集（如OpenOccupancy、Occ3D）需通过人工后处理和复杂重建 pipeline 生成体素级标注，成本高、周期长；
现有替代监督策略（如2D投影、LiDAR伪标签）虽能支撑训练，但无法完全替代3D真值对模型性能的精准评估。

五、多传感器鲁棒性

为实现可靠的自动驾驶，感知系统需在无数种环境条件与场景下有效运行。多传感器鲁棒性指的是，即便面临环境变化、传感器噪声或硬件性能下降等情况，系统仍能保持感知精度与稳定性的能力。不同传感器在特定环境条件下各有优劣：例如，相机在雾雪天气中能见度低，易出现图像模糊或遮挡；激光雷达（LiDAR）在此类恶劣条件下生成的点云也会变得稀疏或含噪；而毫米波雷达（radar）虽空间分辨率较低，却通常能保持更可靠的检测能力。通过融合相机、激光雷达、毫米波雷达等互补传感器，自动驾驶车辆可实现数据源间的冗余备份与交叉验证，弥补单一传感器的局限性。这种多模态融合对于确保感知系统在多样化场景中的可靠性至关重要，不同模态在不同条件下的性能权衡也印证了这一点。

对于自动驾驶领域的基础模型而言，多传感器鲁棒性尤为关键。这类模型需在不同场景、天气条件及传感器配置下实现泛化，而利用多模态数据能够学习兼具语义意义与几何基础的共享表示。该能力对提升边缘场景的可靠性、实现跨异构车辆平台的规模化部署具有重要意义。

跨模态对比学习

自动驾驶中的跨模态对比学习旨在构建一个统一的表示空间，整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息。通过对齐这些异构传感器输入中语义或空间上对应的特征，模型能够学习到模态不变表示——即对环境变化与传感器局限性具有鲁棒性的特征。该方法采用InfoNCE（信息噪声对比估计）等对比损失函数，促使网络将不同模态中对应同一空间或语义元素的特征表示拉近，同时将不对应的特征表示推远。InfoNCE损失的数学公式定义如下：

该公式中各组件定义如下：

q（查询向量）：来自某一模态的锚点数据（如相机图像块）的特征表示；
（正样本键向量）：来自另一模态且与查询向量对应的数据源（如对应的激光雷达点云）的特征表示；
（负样本键向量）：来自另一模态且与查询向量不对应的数据源的特征表示；
τ（温度参数）：用于缩放点积、控制分布尖锐程度的超参数，温度值越低，对难区分负样本的惩罚力度越大。

通过系统性地构建“正样本对”（由描述同一信息的共现传感器数据构成）与“负样本对”（由不对应的传感器数据构成），该方法能迫使模型捕捉每种传感器固有的互补信息。这一过程实际上教会模型在嵌入空间中将查询向量与其正样本键向量的表示拉近，同时将它们与负样本键向量的表示推远。

在不同实现方案中，用于构建对比样本对的具体元素存在差异：

Xing等人通过深度投影将单个激光雷达点与对应的相机图像像素直接关联，以此构建对比样本对。这种细粒度对齐可实现跨模态的像素级监督，但需要精确的传感器校准与同步；
与之不同，SuperFlow与SuperFlow++首先通过语义分割将像素和点分别分组为超像素（superpixels）和超体素（supervoxels），随后在语义区域层面进行对比学习，从而实现更鲁棒、抗噪的特征对齐；
此外，ContrastAlign通过为激光雷达和相机分别设置检测头以提取目标级特征，并在实例层面进行对比学习。该模型基于检测结果对齐实例特征，能够实现目标感知融合，但性能严重依赖检测精度。

如图8所示，上述方法的对比元素粒度不同——涵盖像素级、区域级至实例级，这体现了对比学习在适配多种传感器对齐方式上的灵活性。

跨模态知识蒸馏

跨模态知识蒸馏利用某一模态下性能优异的模型（教师模型），指导另一模态下信息较少的模型（学生模型）学习。例如，激光雷达系统具备精准的空间与几何感知能力，可指导纯相机模型推断图像本身难以获取的空间线索。这种知识迁移不仅能提升相机模型在复杂驾驶场景中的精度与鲁棒性，还能支持成本更低的传感器配置，同时不牺牲感知性能。

跨模态知识蒸馏主要有两种主流方法：密集特征蒸馏与稀疏实例蒸馏。

密集特征蒸馏：旨在将教师模型的丰富中间表示迁移至学生模型。但由于激光雷达与图像特征存在稀疏性差异和模态鸿沟，直接的像素级对齐往往效果欠佳。为解决这一问题，DistillBEV将鸟瞰图（BEV）特征空间分解为多个空间区域，并学习区域感知的重要性权重，使学生模型能聚焦于结构信息丰富的区域；类似地，GAPretrain引入激光雷达引导的掩码策略，在蒸馏过程中突出前景区域、抑制信息价值较低的背景信号。
稀疏实例蒸馏：以目标级特征为迁移对象。与密集特征蒸馏（迁移像素级或区域级中间特征）不同，稀疏实例蒸馏通过聚焦目标实例，重点迁移高层语义知识。BEVDistill发现，直接的特征级蒸馏无法充分捕捉模态差异，反而常导致性能下降。为此，该方法提出采用InfoNCE对比损失，促使跨模态下正、负实例嵌入的区分度提升，从而让学生模型即便在感知方式存在差异的情况下，也能更易对齐高层语义。

因此，BEVDistill、UniDistill等方法同时采用密集特征蒸馏与稀疏实例蒸馏，以充分发挥两者的互补优势、弥补各自局限性。图9展示了在不同粒度层面应用跨模态知识蒸馏的过程。

多视图图像一致性

自动驾驶中的多相机配置会捕捉环境的重叠视角。这些重叠视场提供了天然的监督信号——同一场景内容可从不同视角观测到。如图10所示，通过对齐同一3D场景在多个相机视图中的特征，模型能够学习视角不变表示，从而降低对遮挡、相机位姿变化或几何畸变的敏感性。

例如，Zhang等人从特征层面直接强化一致性，以解决立体匹配中的域泛化问题。该方法通过明确约束左右立体视图中的对应特征，促使模型学习域不变表示，进而提升在不同数据域（如合成数据与真实数据）上的鲁棒性。与之相对，WeakMono3D则在预测层面强化一致性：它利用相对位姿矩阵，将某一相机视图中预测的3D边界框转换至另一相机的坐标系，随后通过L1损失最小化转换后边界框与该视图独立预测边界框的差异。

直接对比不同视图的特征或预测虽实现简单，但对视角变化与遮挡较为敏感——物体可能因视角不同而呈现不同外观，或被其他物体遮挡。近年来，研究人员通过注意力机制聚焦于信息丰富的可见区域，以提升对这类差异的鲁棒性：

BEVFormer采用空间交叉注意力机制，让可学习的BEV查询向量关注多相机图像提取的特征。这种设计使模型能将不同视图的相关信息动态聚合为统一的BEV表示，通过聚焦各相机视角下可见且信息丰富的特征，间接处理视角变化与遮挡问题；
EGA-Depth引入跨视图全局注意力（EGA）模块，使一个视图中的像素能关注另一视图中信息丰富的像素。该模块通过计算图像间空间位置的相关性实现注意力机制，让模型能整合不同视角的全局上下文信息。

这些基于注意力的机制标志着融合策略向更结构化、自适应的方向发展——通过利用跨视图关系提升空间理解能力。

多模态掩码自动编码器

第四章第二节已讨论过适用于点云的掩码自动编码器（MAE），而另一重要研究方向是将MAE扩展至处理多模态输入。近年来的多模态MAE框架旨在联合处理图像、深度图、分割掩码等异构数据源，通过自监督重建任务让模型捕捉互补线索，进而构建更强大、更具韧性的空间表示，如图11所示。

MultiMAE将掩码自动编码器扩展至多模态联合学习，涵盖RGB图像、深度图与分割掩码。该模型对不同模态的空间块进行随机掩码，再对其进行重建，从而在统一空间中学习捕捉共享结构与语义的跨模态表示。尽管MultiMAE未在激光雷达数据上训练，但其使用的深度图像（与激光雷达数据在几何特性上相似）为后续通过掩码自动编码实现相机-激光雷达融合奠定了基础。
在相机-激光雷达融合方面，PiMAE通过几何投影对齐3D点云与2D图像中的掩码区域，建立3D点与其关联图像像素的空间对应关系。在对每种模态分别编码后，一个共享解码器同时重建两种输入，确保编码后的特征在2D与3D域中既兼容又语义对齐。
尽管PiMAE基于联合掩码重建的思路构建，但仍通过独立的编码器分支处理点云与图像数据，依赖几何投影实现跨模态交互。相比之下，UniM2AE通过将相机图像与激光雷达点云均转换为“带垂直高度通道的共享3D体素表示（以鸟瞰图网格形式组织）”，实现了更紧密的融合。掩码与重建过程直接在该共享空间中进行，同时通过专用融合模块促进两种模态间的信息交互。

这些多模态MAE表明，通过自监督融合可构建能同时理解多种传感器的单一基础模型，这有望简化后续感知阶段的设计。

多模态扩散模型

扩散模型通过建模去噪过程，减少多模态数据中的噪声与不一致性，从而提升自动驾驶系统的多传感器鲁棒性。

OccGen框架是扩散模型在输出层面应用的典型案例。该框架采用“从噪声到占用”的生成范式：首先初始化一个3D高斯噪声图，再通过迭代优化将其逐步细化为精细的语义占用图。这一过程由从激光雷达和相机输入中提取的多模态特征引导，使模型能通过迭代去噪生成细粒度的占用预测，实现从粗到细的精度提升。

DifFUSER则通过强调特征级去噪，推动多传感器融合技术发展。其条件扩散模型在 latent 特征空间中优化融合特征，并利用多尺度网络与条件模块处理含噪或不完整数据。优化后的特征可提升3D目标检测、BEV地图分割等下游任务的性能，增强模型在复杂驾驶场景中的韧性。

上述两项研究均体现了扩散模型在应对多模态感知挑战、提升鲁棒性方面的灵活性。图12对比了两种扩散方法：特征级去噪与输出级去噪。

多传感器鲁棒性的关键挑战

为综合概述上述技术，表8对各类方法的优势、局限性及主要应用场景进行了对比分析：跨模态对比学习擅长学习细粒度的模态不变嵌入，能提升传感器失效时的鲁棒性，但计算成本较高；跨模态知识蒸馏可通过迁移激光雷达的几何知识，实现高性能纯相机部署，但学生模型性能受限于教师模型的质量与潜在偏差；对于纯相机系统，多视图图像一致性提供了成本低的视角不变特征学习方法，但对同步精度与自身位姿精度高度敏感；多模态掩码自动编码器是一种强大的无标签预训练策略，模块性强且可扩展至新传感器，但灵活性的代价是预训练计算资源消耗大，且需针对具体任务进行微调；最后，多模态扩散模型能有效缓解传感器噪声、生成经过校准的不确定性估计，但迭代采样过程会显著增加推理延迟。

以下将阐述所有多传感器鲁棒性方法共有的核心挑战：

传感器可靠性：多传感器鲁棒性方法面临的一大挑战是：单一传感器易受恶劣天气、光线不足、设备故障等因素影响而产生噪声或性能下降。某一传感器的误差可能在融合过程中扩散，破坏整个环境模型的准确性，导致感知输出错误。

标定与同步：实现稳健融合的复杂性还体现在：不同传感器间难以维持完美的空间校准与同步。实际应用中，校准漂移、传感器记录模式差异（如旋转式激光雷达与帧式相机）、数据采集异步、系统延迟等问题，均可能导致数据流错位。这种错位会加剧误差在不同模态间的传播，因此融合机制必须对这类偏差具备韧性，才能确保系统安全可靠运行。

六、时序理解

理解是自动驾驶车辆在动态环境中安全运行的核心能力，其核心是对场景随的演变过程进行推理——包括捕捉物体运动、跟踪遮挡物以及预测未来事件。与仅在单一点解读环境的静态感知不同，感知通过利用观测序列，构建对运动模式及智能体（agent）间交互的连贯理解。将理解融入感知系统，能够有效解决自动驾驶导航中的关键挑战。

建模可支持稳健的遮挡推理与物体恒存性：通过利用历史观测数据与运动线索，系统即便在物体暂时被遮挡时，也能推断其存在，从而构建持续、完整的环境模型。此外，一致性可减少目标检测、跟踪或分割等任务输出结果的波动（如边界框抖动、语义标签跳变），而稳定的预测结果是实现可靠规划与平稳控制的必要前提。最后，理解能让系统通过估计智能体的运动状态并预测其未来轨迹，建模交通场景的演变过程——这些预测对于避障、变道等前瞻性操作至关重要。表9汇总了不同理解方法的策略、输入数据、目标及监督信号。

时序一致的4D预测模型

对未来场景动态的预测建模是自动驾驶系统的关键能力，其核心挑战在于如何从传感器观测序列中预测复杂动态环境的演变过程。近年来，相关方法日益强调一致性原则，旨在学习能够准确捕捉场景随变化规律的表示。图13展示了一致的4D预测模型的输入与输出。

时序表示学习

已有多种方法通过在时序传感器数据上进行自监督或监督学习，利用一致性构建时序表示。例如：

UnO（无监督占用场模型）利用时序LiDAR数据学习连续的4D占用场：通过训练模型预测未来的占用状态，并将预测结果与后续LiDAR测量数据进行对比，强制模型满足一致性。这一过程使模型能够学习同时编码几何信息与运动信息的时空表示，为其推断动态场景结构及适配各类下游任务奠定基础；
视觉点云预测（Visual Point Cloud Forecasting）类方法则主要基于相机图像序列（部分方法会补充历史LiDAR数据）预测未来的3D点云。这类模型通过处理对齐的视觉特征（常采用卷积或Transformer架构维持序列依赖关系）推断动态，再利用深度估计或体积渲染等技术，将时序2D观测结果转化为连贯的3D未来表示——其核心建模逻辑在于实现时序2D观测到3D预测的一致映射；
UniWorld采用预训练策略，通过从图像-LiDAR配对序列中预测4D占用状态，学习时空特征。该方法通过未来占用预测目标强制一致性，并利用多帧融合机制有效整合上下文信息。这种在预训练阶段就聚焦理解的设计，能通过将监督直接嵌入学习到的表示中，提升模型在动态下游任务中的性能。

用于概率性未来预测的扩散模型

尽管上述方法推动了建模的发展，但捕捉未来场景固有的不确定性与多模态特性仍是一大挑战。驾驶环境具有随机性，同一历史状态可能对应多种合理的未来状态（例如，车辆可能左转、右转或直行）。确定性预测模型往往难以应对这种情况，输出的结果常为不切实际的“平均化”预测。

扩散概率模型（denoising diffusion probabilistic models）因能够表示复杂的多模态概率分布，成为解决这一问题的理想方案。这类模型通过学习逆转“逐步加噪过程”，捕捉数据的完整分布；从不同噪声样本出发启动逆转过程，可生成多样且合理的未来场景——这对于不确定性下的稳健规划至关重要。

CoPilot4D是扩散模型在自动驾驶多模态未来预测中应用的典型案例：它将时空Transformer与离散扩散框架结合，预测表示环境状态的鸟瞰图（BEV）令牌序列。关键在于，CoPilot4D的预测同时以历史传感器数据与规划的自车动作（如未来位姿）为条件，这种动作条件设计支持反事实推理（counterfactual reasoning）——即模拟不同潜在操作可能产生的结果。通过在无标签点云数据上采用令牌化与离散扩散技术，CoPilot4D成功将其他领域的生成式建模技术适配到自动驾驶场景，学习动作条件下的4D世界模型，在点云预测任务中实现了当前最优性能。

其他基于扩散的方法进一步拓展了这一方向：

BEVWorld将扩散建模扩展到由多传感器输入构建的统一BEV latent空间，利用以动作令牌为条件的时空Transformer，实现一致的多模态场景预测；
Drive-WM则将图像扩散与、多视图建模结合，从多个视角预测未来驾驶场景，通过生成可控、一致的序列，为基于视频的规划提供支持。

时序对比学习

在自动驾驶场景中，对比学习正越来越多地被用于利用传感器流的时序特性，学习一致且运动感知的表示。当自车在环境中行驶时，由于自身运动或其他智能体的运动，会从不同视角持续观测物体与场景——这些上的变化可视为“隐式数据增强”：同一物体在不同点的观测结果被用作正样本对，而不同物体的观测结果或同一物体在上相距较远的观测结果则被用作负样本对。图14展示了如何为对比学习选择正样本对与负样本对的示例。

这种方法将物理世界中的连贯性转化为强大的自监督信号，使模型能够学习对视角变化具有鲁棒性、同时对观测对象的身份与动态状态保持敏感性的表示。此类基于的表示在自动驾驶这类动态且安全关键的环境中尤为重要——理解物体随的行为与一致性是保障安全的核心。

多个先进框架展示了该方法的应用：

TARL（关联表示学习）针对3D LiDAR数据，利用自车运动关联连续扫描中的物体片段：它通过无监督聚类方法分割潜在物体，训练Siamese网络（孪生网络）最大化点级特征与其聚合时序表示的相似度；同时引入基于Transformer的投影头，进一步增强模型学习物体内部关系的能力，最终得到适用于分割等任务的对齐特征；
SuperFlow与SuperFlow++将这一概念扩展到多模态输入（尤其LiDAR-相机配对数据），引入基于流场（flow-based）的对比学习模块，跨与模态对比超点（superpoint）特征：其中SuperFlow通过整合空间与对比损失，对齐LiDAR超点与图像超像素；SuperFlow++则进一步引入多相机一致性约束，强化跨视角的稳健特征学习；
COMPASS（自动驾驶对比多模态预训练）提出了统一的多模态对比学习框架：它构建了一个连接RGB图像、深度图与光流（optical flow）的时序图，将这些数据映射到共享的空间与运动模式空间，并在空间、及时空维度上应用对比目标，最终得到能够同时捕捉场景几何与动态行为的丰富上下文感知特征。

这些方法共同表明，将对比学习与驾驶数据的时序结构及多模态传感器流结合，能够开发出稳健、一致的自动驾驶感知系统。

自动驾驶理解的关键挑战

自动驾驶场景下的理解面临三个相互关联的核心挑战：物体恒存性与遮挡推理、运动预测与轨迹 forecasting、一致性，以及实时延迟约束。

物体恒存性与遮挡问题

物体恒存性（object permanence）与遮挡推理（occlusion reasoning）针对的是“道路使用者常被其他物体暂时遮挡”这一现实问题。若缺乏建模，感知系统可能会丢失对这些被遮挡智能体的跟踪，从而引发重大安全风险。通过整合历史观测信息并分析运动线索，模型能够推断被遮挡物体的持续存在及其轨迹，为规划与避障提供完整、可靠的世界模型。

运动预测的不确定性

运动预测与轨迹 forecasting是实现“前瞻性驾驶”的关键。自动驾驶车辆必须建模智能体未来的运动状态，而交通场景往往具有高度不确定性与多模态特性（如行人可能突然横穿马路或沿人行道行走）。确定性模型难以捕捉未来的多样性，输出的预测结果通常是不切实际的“平均化”结果；概率模型（如基于扩散的方法）虽能通过生成未来可能结果的分布来解决这一问题，但会引入额外的计算与表示复杂性，同时在生成物理上合理、可执行的预测结果方面仍面临挑战。

一致性保障

一致性对系统的稳定运行至关重要。逐帧处理可能导致目标检测、跟踪或分割的输出结果出现噪声或抖动（如边界框频繁偏移），这类波动会传播到下游模块，引发车辆的不稳定行为。通过平滑与一致性约束，可确保预测结果在维度上连贯且物理合理，为平稳、可靠的控制提供支持。

实时延迟约束

4D感知的核心挑战之一是：如何在车载严格的延迟预算下，实现能够维持紧凑、稳定的BEV或语义占用状态，并高效更新该状态的循环世界模型（recurrent world models）。模型需通过状态空间循环（state-space recurrence）或记忆增强型Transformer（memory-augmented transformers）捕捉长时依赖，同时通过滑动窗口、稀疏注意力及选择性关键帧/事件驱动更新等方式限制上下文规模。此外，稳健的循环建模还依赖于精确的跨传感器对齐——包括严格的同步、自车运动补偿及周期性重初始化——以减少漂移与误差累积。

要在功耗与内存约束下满足这些要求，需采用激进的效率优化手段，包括知识蒸馏、令牌/体素剪枝（token/voxel pruning）及带路由限制的混合专家模型（budgeted mixture-of-experts routing）。同时，配套的系统优化（如经校准的低精度（INT8/FP8）执行、算子融合、缓存复用及加速器上的计算图捕获）也至关重要。如何将这些元素有机整合，仍是当前面临的难题，使得循环4D预测成为实际实时部署的核心瓶颈。

在实际应用中，这些挑战还会因现实世界动态的不确定性、传感器校准与同步的不完美，以及高维时空表示的巨大计算需求而进一步加剧。将稳健的理解融入实时、安全关键的系统仍是一个开放性问题，通常需要设计复杂的混合系统架构。解决这些相互关联的挑战，需要在模型设计、优化、硬件加速及评估方法等多个维度取得突破。

七、挑战与未来研究方向

尽管基础模型在自动驾驶感知领域展现出巨大潜力，但要构建实用、可靠且可部署的系统，仍有多项挑战亟待解决。本章重点阐述当前存在的主要局限及未来的研究方向，核心聚焦如何将四大核心能力（通用知识、空间推理、多传感器鲁棒性、时间理解）整合到统一框架中，同时针对每项能力的独特挑战展开专项讨论。最后还将探讨实时延迟问题，凸显基础模型高昂的计算需求给实际部署带来的挑战。

核心能力的整合

目前，针对基础模型各单项能力的解决方案已陆续涌现，但尚无任何现有系统能将四大核心能力——通用知识、空间推理、多传感器鲁棒性与时间理解——无缝整合到统一的实时运行框架中（相关示例见表10）。尽管已有研究尝试组合部分能力，但全面、可扩展的解决方案仍未出现。以SEAL为例，该模型既从视觉基础模型（VFM）中蒸馏知识，又融入了时间与多模态对比学习，能够结合通用知识与增强的多传感器鲁棒性、时间理解能力。然而，系统级的整合与延迟优化研究仍不够充分，需进一步探索以确保实时可行性与可靠性。

混合系统架构是另一种务实的过渡方案，它将具备丰富能力的基础模型与传统、高度优化的自动驾驶实时流水线相结合。在这类系统中，基础模型可负责处理时间敏感性较低的高层推理任务，或降低运行频率；同时，传统组件则负责持续的低延迟感知与控制功能，从而在先进能力与严格的实时约束之间取得平衡。这种方案虽属于工程层面的折中，却能填补当前技术空白。但未来研究需致力于开发具备实时能力的基础模型，使其无需依赖此类双流水线，就能全面整合所有先进的感知、推理与融合能力，最终实现更统一、本质上更稳健的系统。

当前基准测试的局限性与真实世界评估的必要性

此外，尽管现有众多用于评估自动驾驶系统的基准测试，但多数聚焦于常规场景，却忽略了罕见或安全关键的边缘场景——而这些场景恰恰是基础模型需证明其鲁棒性与实用价值的核心场景。这种偏差导致基准测试性能与真实世界可靠性脱节，使得研究往往优先优化平均场景指标，而非解决最关键的问题。为推动有意义的技术进步，需开发更完善的基准测试，系统性地针对这些核心能力设计评估任务，同时未来研究应通过深入探索与定向评估，重点攻克此类高难度场景。

KITTI、nuScenes、Waymo开放数据集等基准测试已推动了常规驾驶条件下感知任务的发展。但这些数据集主要捕捉典型环境（晴朗天气、白天时段、交通状况可预测），对罕见边缘场景（如行人突发行为、道路杂物、特殊光照、极端天气）的覆盖不足。因此，在这些基准测试上训练与评估的模型，可能在平均场景指标（如平均精度均值mAP、交并比IoU）上表现优异，却在真实部署中对安全至关重要的场景下失效。

尽管部分基准测试已开始尝试纳入罕见场景，但这类场景通常通过仿真环境生成。例如，DeepAccident、AutoScenario、PeSOTIF等基准测试利用CARLA等仿真器，构建包含罕见或安全关键事件的压力测试。这类测试虽对受控分析具有价值，但合成数据集往往缺乏充分的保真度，无法完全复现复杂的真实世界交互（如未建模的传感器伪影、不可预测的人类行为），因此并非理想的最终验证方案。表11汇总了用于评估不同条件下核心能力的各类基准测试。

为填补这一空白，未来的评估范式需超越静态数据集，转向结合精选真实世界数据与合成增强的基于场景的测试。具体包括：扰动真实日志以模拟传感器失效、遮挡或恶劣天气，以及引入能明确测试此类条件下鲁棒性的指标。这类定向基准测试将推动优化目标从“总体精度”转向“部署相关的抗干扰能力”。

最重要的是，基准测试设计需与真实世界部署的验证策略保持一致。自动驾驶车辆不仅需在仿真压力测试中表现稳健，还需在数百万英里的真实道路行驶中证明可靠性，以发现未预见的风险与长尾边缘场景。这些部署经验可用于指导动态基准测试的构建，形成不断更新的边缘场景库，使评估立足于实际运行需求。将这些洞见融入基准测试流程，才能确保在基准测试中表现优异的系统，同样能应对公共道路的复杂与不可预测性。

实时延迟缓解

尽管大型基础模型具备强大的泛化与推理能力，但其庞大的计算开销使其难以实际部署。高推理延迟导致这些模型若不经过优化，无法满足自动驾驶的实时需求。知识蒸馏、模型量化与参数剪枝是常用的模型压缩与加速方法。在知识蒸馏方面，除前文提及的相关研究外，还有许多针对通用基础模型的研究，但这些研究在自动驾驶领域的探索仍不充分。类似地，模型量化（降低模型参数与激活值的数值精度）与参数剪枝（移除冗余或次要权重）虽在通用基础模型中已有广泛研究，但其在自动驾驶领域的应用仍有限，具备巨大的进一步开发潜力。更具体地说，在自动驾驶这类安全敏感应用中，需通过谨慎实现将精度损失降至最低，而如何在该领域充分理解并优化这些技术，仍需更全面的研究。

除算法优化外，配套的技术进步还包括：开发专用硬件加速器、增强存储系统（提升带宽与容量），以及改进互联技术（加速数据传输）。这包括定制化专用集成电路（Application-Specific Integrated Circuits, ASICs）、现场可编程门阵列（Field-Programmable Gate Arrays, FPGAs），以及新型架构（如Grok的语言处理单元（Language Processing Unit, LPU），专为可预测的低延迟AI推理设计），同时也可利用日益强大的商用边缘AI平台。这些硬件解决方案针对基础模型（尤其Transformer架构）的特定计算模式进行定制，通过缓解处理与数据传输瓶颈，实现更高效的车载端执行。

在实际应用中，需将模型压缩与专用硬件结合，并采用以下运行时策略，以满足严格的端到端延迟要求：

运行多速率异步流水线：保持跟踪、自由空间检测、自车运动估计等任务的高速运行；将开放集推理与罕见事件分析转移至非关键路径；
采用即时与级联推理：配备早退预测头（early-exit prediction heads）与置信度感知门控（confidence-aware gating），确保及时输出结果，并在有额外时间时优化精度；
维持流式与分摊计算：保留循环状态、更新关键帧、跨帧复用注意力键值缓存（Key-Value caches）；
采用延迟感知架构：通过令牌/体素剪枝、结构化稀疏、带路由限制的混合专家模型（budgeted mixture-of-experts），以及局部或窗口化注意力，在控制计算复杂度的同时保留关键上下文。

解决数据偏差与确保公平性能

一个关键的关注领域是训练这些模型所用大规模数据集固有的偏差。这类数据集通常对有利天气条件存在系统性偏向，而对不同地理、人口场景以及弱势道路使用者（如残障人士、儿童）的覆盖不足。这可能导致模型在常规场景中表现可靠，却在边缘场景中突发失效，构成重大安全风险。缓解这一问题需协同努力，通过数据增强、生成高保真合成数据、定向数据采集等技术，构建更具包容性与代表性的数据集。此外，研究模型训练过程中的算法公平性与偏差缓解技术也至关重要，以确保自动驾驶车辆能在各类真实世界环境中安全、公平地运行。

非确定性人工智能的监管挑战

基础模型的非确定性本质给合规性与认证带来了严峻挑战。传统汽车安全标准针对可预测的机械系统设计，难以适用于可能呈现涌现行为且缺乏可解释性的系统。这种“黑箱”问题对监管机构而言是重大障碍，他们无法依赖传统测试协议来保障安全性。当前的监管环境由零散的州级规则构成，给制造商带来了不一致的合规压力。

为填补这一空白，未来研究需聚焦于开发基础模型的验证与确认框架。其中关键组成部分是推进可解释人工智能（Explainable AI, XAI）技术——通过清晰揭示模型的决策过程，XAI不仅能增强监管机构与公众的信任，还能在审计过程中帮助识别潜在失效模式、为事故调查提供关键数据，最终为这些强大技术的安全、负责任部署铺平道路。这种新型认证范式可能需结合XAI、大规模边缘场景仿真测试，以及持续的真实世界数据报告。

缓解模型幻觉与安全风险

最后，生成式模型可能产生“幻觉”（输出与现实不符的结果），这是核心安全隐患。在自动驾驶场景中，幻觉可能表现为感知到不存在的障碍物，或遗漏真实存在的障碍物，进而引发灾难性后果。缓解这一风险需采取多管齐下的策略，包括开发不易产生幻觉的新型架构、构建评估模型鲁棒性的全面基准测试，以及部署能实时检测并标记潜在幻觉的监控系统。

归根结底，确保基于基础模型的自动驾驶车辆安全，需采用 holistic（全面）方法：结合严格的数据治理、透明且可解释的模型，以及能适应技术快速创新的全面监管框架。

八、结论

基础模型正在重塑自动驾驶感知领域，推动该领域从专用算法向通用、大规模架构转变。这种根本性变革使系统能更高效地解读与预判真实世界的复杂性。通过在海量、多样的数据集上预训练，这些模型有效解决了可扩展性、对“长尾”场景的泛化能力，以及对环境变化的稳健适应能力等关键挑战。

本综述强调了此类系统必备的四大核心支柱：

通用知识（Generalized Knowledge）：通过蒸馏、伪标签等方法，利用视觉基础模型（VFM）、视觉-语言模型（VLM）与大型语言模型（LLM），实现对新型场景的精细化理解；
空间理解（Spatial Understanding）：通过体积建模与自监督技术，构建环境的全面3D表示，捕捉几何信息与可通行空间；
多传感器鲁棒性（Multi-Sensor Robustness）：利用跨模态学习、知识蒸馏与一致性方法，融合相机、激光雷达（LiDAR）、毫米波雷达等多样传感器数据，确保感知可靠性；
时序理解（Temporal Understanding）：通过4D预测与时间对比学习，实现对场景动态与运动的感知及预测，支撑前瞻性决策。

掌握这些能力是构建更安全、更可靠自动驾驶系统的关键。这类系统应能直观应对新型场景、在恶劣条件下避免感知灾难性失效，并更精准地预判突发运动，最终实现基础模型的应用价值。

尽管基础模型潜力巨大，但要将其转化为可部署的自动驾驶系统，仍面临关键挑战。除高昂的计算需求、传感器无缝整合（需实现稳健的时空对齐与抗误差融合）外，最核心的障碍在于如何将四大核心能力——通用知识、空间推理、多传感器鲁棒性、时间理解——整合到单一、高效的实时框架中。整合这些能力的复杂性往往导致系统碎片化，形成以牺牲全面整合为代价换取实用性的混合系统。尽管这类过渡方案具有短期价值，但要实现真正统一的模型，需在模型架构与训练策略、边缘场景导向的基准测试开发，以及实时约束优化的系统级设计等方面取得突破。唯有在这些维度持续推进，才能充分释放基础模型在自动驾驶领域的变革潜力。