导读
在自动驾驶里,车子真正要学会的第一件事,是“看懂世界”。
不管识别车辆、行人、锥桶,还是判断远处的一辆卡车是静止还是移动,背后都指向同一个能力——目标检测。
这项看似简单的能力,却撑起了自动驾驶整个决策链条:只有看清楚,才能规划、控制、避障。也因此,目标检测经历了过去十年最剧烈的技术更替:从早期的 2D 摄像头识别,到 3D 点云深度建模,再到 2D–3D 融合、Transformer 框架、乃至近两年兴起的 VLM/LLM 驱动的多模态检测。
今天这篇盘点,我们沿着技术脉络,把自动驾驶目标检测的发展史梳理成一条清晰进化主线,回顾这项技术如何一步步变化、为什么必须这么变,以及行业又走向了哪里。

图1|自动驾驶目标检测方法的完整分类体系。根据传感器配置、数据表示、融合策略与模型结构,将方法划分为四大类及其代表性子类
REF
论文标题:All You Need for Object Detection: From Pixels, Points, and Prompts to Next-Gen Fusion andMultimodal LLMs/VLMs in Autonomous Vehicles
链接:https://arxiv.org/pdf/2510.26641

自动驾驶最初的感知并不复杂:摄像头 + 深度学习模型。在当时,目标检测主要是在 二维图像平面完成,典型特征包括:
● 用 CNN 学习纹理、颜色、边缘特征
● 输出 2D bounding box
● 无法直接获取物体的真实距离
在当前的自动驾驶技术中,2D 摄像头类方法主要作为 自动驾驶“基础识别”以及“快速检测组件”模块出现(如行人、交通标志识别、道路边界等)。
● 典型模型包括:YOLO 系列
这些属于轻量级单目检测网络,适合实时性要求高的场景。
2D 检测的优势很明显:
● 高分辨率
● 成本低
● 对外观、纹理非常敏感
但核心问题在于:
它不知道距离。
也就是说,二维检测无法满足“车应该如何在三维世界中行动”的需求。于是,自动驾驶很快迈入下一阶段。

图2|二维摄像头检测方法的整体框架。(a) CNN-based 模型的一般结构;(b) Transformer-based 模型的一般结构

3D 检测为什么必须出现?因为自动驾驶需要:
● 物体的真实三维位置
● 远近精确距离
● 稳定的几何结构描述
● 在各种光照、天气中保持可靠
● 长距离感知(超越图像的像素细节限制)
LiDAR 的三维点云让这些成为可能,3D的检测方法可以大致分为五大类:
Point-based
point-based的方法最接近原始 LiDAR 数据的表达方式。点云本身是稀疏、无序且三维分布的,而 Point-based 方法直接在点上进行操作,不依赖体素划分或投影,因此能够最大程度保留几何细节。
典型流程包含“点采样—邻域分组—局部特征提取”等步骤,通过对每个点及其局部邻域建模,形成能表达形状变化的高维特征。正因为对几何细节的高保真建模,这类方法更适合需要细粒度结构信息的场景。
但它们的计算代价往往较高,点云数量大时尤其容易影响实时性,因此在车载部署中受到一定限制。

图3|点级(Point-based)三维 LiDAR 目标检测方法的整体框架
Voxel-based
体素方法是近几年自动驾驶中最具代表性的 3D 检测路线之一。它将三维空间划分为规则体素,将点云映射到固定结构的体素网格中,再利用 3D CNN 或稀疏卷积进行特征提取。
由于数据结构规整,这类方法天然适合卷积操作,能高效捕捉局部与全局空间关系,也因此在 KITTI、nuScenes 等基准上取得非常强的性能。
但体素方法也有固有限制,例如体素分辨率必须在精度与效率之间平衡:分辨率过低会导致几何信息损失,过高又会显著增加算力,并带来量化误差,这也是体素方法在实际部署中必须面对的设计取舍。

图4|体素(Voxel-based)三维 LiDAR 目标检测方法的整体框架
Pillar-based
Pillar-based 方法则是为了解决体素方法在计算上的成本问题而提出的一条轻量级路线。这类方法将三维空间沿高度方向“压扁”,将点云划分为竖直柱状区域(pillars),仅在平面上进行划分。
每个 pillar 内的点通过轻量化 PointNet 编码,再被映射成 BEV 平面上的 pseudo-image 特征,后续即可使用标准的 2D CNN 完成检测。
这种结构极大降低了 3D 卷积的开销,非常适合实时性要求高的自动驾驶场景,是车规部署中常用的高效结构。
不过,由于完全丢弃高度维信息,Pillar-based 方法在识别高度形态复杂或垂直结构明显的物体时有固有限制,也就是说,它用速度换了部分空间表达能力。

图5|柱状(Pillar-based)三维 LiDAR 目标检测方法的整体框架
Range-based
除了点和体素,还有一种思路是将 LiDAR 点云投影到“深度图”形式加以处理。Range View 方法的流程为:将点云映射到以方位角、俯仰角和距离为坐标的二维网格,使其变成规则的图像,再用成熟的 2D CNN 网络提取特征。
因为投影直接保留了距离和角度几何,这类方法在长距离感知中具备优势,且计算成本较低。不过二维展开不可避免地带来空间畸变,对视角变化和遮挡敏感,因此它适合对“效率优先”的系统,但不一定能捕获空间结构的全部细节。

图6|基于 Range View 的三维 LiDAR 目标检测方法整体框架
BEV-based
这里我们把 BEV-based 方法也归为 LiDAR 表示的一类,尽管 BEV 在后期更多用于多模态融合。BEV-based 的核心思想是将 LiDAR 点云压缩到地面平面的鸟瞰视图,把空间结构转换为规则的 2D 网格,再使用 CNN 或 Transformer 提取特征。
从几何上看,这种表示天然与自动驾驶的规划与地图对齐,非常方便整个系统共享空间语义。此外 BEV 的计算结构友好、易扩展,是近两年 LiDAR 感知和融合感知体系的主流基础。
缺点是垂直层次信息被压缩,可能对依赖高度信息的场景带来一定挑战,但 BEV 的整体稳定性与可扩展性仍使其成为当前最重要的空间表示之一。

随着自动驾驶感知系统变得越来越复杂,仅依赖单一传感器已经难以满足实际道路的需求。
● 摄像头拥有高分辨率、纹理丰富,但在夜晚、雾天或逆光条件下容易失效;
● LiDAR 对距离和几何结构敏感,却难以理解语义细节;
● Radar 具备强渗透能力,但空间分辨率有限。
正因如此,跨传感器融合成为自动驾驶中最具现实意义的一次技术演进。

图7|自动驾驶中主要传感器的类别与感知性能概览。感知性能按 1–5 进行评分,1=很低,2=低,3=中等,4=高,5=很高
在融合方式上,大致可以分为三种层级:数据级、特征级和决策级。
● 数据级融合通常被称为 Early Fusion,即在输入层面就将 LiDAR 与摄像头数据进行对齐与拼接,例如将 LiDAR 投影到图像平面,或生成密集深度图后直接作为网络输入。这样的方式保留了最丰富的底层信息,但也对标定精度提出了更苛刻的要求,同时输入维度大、计算成本高,使其更适合算力充足、精度优先的系统。

图8|Early Fusion(数据级融合)三维目标检测的整体框架
● 特征级融合是工业界使用最广泛的方法,也是当前自动驾驶感知系统的主流方案。在这一策略中,Camera 与 LiDAR 各自经过 backbone 提取特征,再通过拼接、加权、注意力机制等方式融合成统一表示。这样的结构兼容性强,可以灵活组合不同的视觉或点云网络,同时对传感器之间的小幅错位更具鲁棒性。

图9|Mid Fusion(特征级融合)三维目标检测的整体框架
● 决策级融合则更接近“系统安全冗余”的理念。其方法是在各自完成检测后再在决策层进行合并,例如选择置信度更高的框、或者利用交叉 NMS 进行最终筛选。这类方法牺牲了跨模态低层特征交互的学习能力,但却在安全性和稳定性上表现更好,因此常用于自动紧急制动(AEB)、前向碰撞预警等安全关键模块。

图10|Late Fusion(决策级融合)三维目标检测的整体框架
总体而言,多传感器融合让自动驾驶目标检测的可靠性大幅提升,其中特征级融合已经成为当前主流,而数据级与决策级方法则分别在极致性能和安全冗余场景中发挥不可替代的作用

当前自动驾驶感知在向“多模态大模型”转型的趋势。过去目标检测的处理链路主要包括图像或点云的几何建模,而近两年研究者将语言模型(LLM)与视觉语言模型(VLM)引入自动驾驶系统,希望通过更强的语义理解能力来弥补传统模型在高层推理方面的不足。

图11|当前自动驾驶多模态传感器下的目标检测可视化:RGB 图像展示了包含车辆、行人和骑行者的二维检测;LiDAR 与 Radar 点云通过空间对齐的三维框完成 3D 检测。多模态 AI(包括 LLM 与 VLM)的融合,使系统能够结合视觉与空间信息,实现更丰富的场景理解与更高的检测准确度
这一方向孕育出了诸多新工作,它们不一定直接执行检测任务,却逐渐成为感知结果之后的“语义解释层”,用于辅助系统理解场景的潜在风险、目标关系与动作逻辑。
LLM 在自动驾驶中的作用是多样的,典型功能包括:
● 对场景进行语言描述与总结;
● 协助策略层理解环境语义;
● 为轨迹预测提供语言推理能力,让自动驾驶系统能从“语义视角”判断车辆运动趋势;
● 利用语言结构化能力对场景中潜在风险进行分析;
● 通过结合点云信息,让模型能够以语言方式表达三维几何关系;
这些工作表明,语言模型正逐渐成为“辅助推理模块”,提升系统对复杂场景的理解力,而不是替代底层几何检测网络。

图12|视觉语言模型(VLM)在自动驾驶场景中的整体框架
相比之下,VLM(视觉语言模型)更偏向于系统级整合,VLM 的能力主要体现在四个层面:感知(perception),推理(reasoning),跨模态对齐(alignment)与生成(generation)。VLM 并不是取代传统检测模型,而是一种补充,用来填补检测器无法表达的高层语义空缺。它们让自动驾驶能够从“像素与点云的几何识别”迈向“场景理解与推理”,为未来的世界模型(world model)感知框架奠定基础。

过去十年,自动驾驶目标检测从二维世界走到了三维世界,现在正在迈向多模态世界。
从像素到点云,从特征到 BEV,从传感器到语言模型,每一次演进都让自动驾驶更安全、更聪明、更接近真正的自动化,我们甚至可以得出以下结论:
目标检测的进化,是自动驾驶能力的进化
自动驾驶目标检测的时代,正从“探测物体”走向“理解世界”。
未来的自动驾驶,不再只是识别车辆与行人,而是能像人类一样,看懂一整个场景的语义、因果和动态关系。
244

被折叠的 条评论
为什么被折叠?



