点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享华中科技大学最新的工作!SDG-OCC:融合LiDAR深度先验与图像语义,刷新Occ3D-nuScenes BEV特征生成SOTA!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
论文作者 | ZaiPeng Duan等
编辑 | 自动驾驶之心
背景
3D 环境的准确感知是现代自动驾驶系统和机器人技术的基础,能保障高效规划和安全控制。近年来,3D 目标检测和语义分割的进展推动了 3D 感知领域发展,但目标检测依赖精准的3D框,并且难以识别开集的模板;语义分割在复杂场景(尤其是遮挡和重叠情况下)的细粒度分类表现不佳。
3D 语义占用预测作为更全面的环境建模方法,同时估计场景体素的几何结构和语义类别,为每个 3D 体素分配标签,对任意形状和动态遮挡具有更强鲁棒性,因此在自动驾驶领域中展现出了巨大潜力。
然而,现有 3D 占用预测方法存在明显局限:单模态方法中,基于相机的方法缺乏深度信息,基于激光雷达(LiDAR)的方法则受遮挡影响,难以获取完整场景细节。当前轻量级方法主要依赖 Lift-Splat-Shoot(LSS)流水线,但该方法存在显著缺陷:通过深度分布模拟每个像素的深度不确定性(深度间隔通常设为 0.5m),但稀疏的BEV表示仅让 50% 的网格接收有效图像特征(Figure 2 (a));增大深度间隔可提高深度估计精度以缓解稀疏性,却会显著增加计算量。同时,尽管激光雷达能提供有价值的几何先验,但同时处理点云和图像的融合方法计算负担重,影响实时应用。

为解决这些问题,本文提出一种全新多模态占用预测网络 SDG-OCC,在 Occ3D-nuScenes 数据集上实现了最先进(SOTA)的性能且能实时处理,在更具挑战性的 SurroundOcc-nuScenes 数据集上也表现出可比性能,验证了其有效性和鲁棒性。
论文标题:SDGOCC: Semantic and Depth-Guided Bird's-Eye View Transformation for 3D Multimodal Occupancy Prediction
论文链接:https://arxiv.org/abs/2507.17083
代码:https://github.com/DzpLab/SDGOCC
本文内容已上传至自动驾驶之心知识星球!作为国内最大的自驾技术社区,一直在给行业和个人输送各类人才、产业学术信息。目前累积了国内外几乎所有主流自驾公司和大多数知名研究机构。如果您需要第一时间了解产业、求职和行业痛点,欢迎加入我们。
一个认真做内容的社区,一个培养未来领袖的地方。
相关工作
视觉中心的占用感知
受特斯拉自动驾驶感知系统启发,视觉中心的占用感知受到业界和学术界广泛关注。MonoScene是开创性工作,仅使用RGB输入;TPVFormer结合多相机输入,通过基于Transformer的方法将特征提升到三视角空间;SurroundOcc将高维BEV特征扩展为占用特征,直接进行空间交叉注意力以生成几何信息;VoxFormer引入两阶段基于Transformer的语义场景补全框架,仅从2D图像输出完整的3D体素语义;
FlashOcc通过将通道转换为高度,将BEV输出提升到3D空间,显著提高运算效率;FBOcc提出基于BEV特征的前后视图转换模块,解决不同视图转换的局限性;UniOcc和RenderOcc使用NeRF直接预测3D语义占用,但渲染速度限制其效率;FastOcc改进占用预测头以实现更快推理速度;COTR通过显式-隐式视图转换和粗到细语义分组构建紧凑的3D占用表示。
与这些方法不同,本研究通过将点云的几何和语义信息融入视图转换,从BEV空间提升3D语义占用预测的速度和精度。
多模态占用感知
多模态占用感知利用多种模态的优势克服单模态感知的局限性。OpenOccupancy引入激光雷达-相机语义占用预测的基准;OccFusion沿特征通道连接不同模态的3D特征体,再通过卷积层融合;CO-Occ引入几何和语义融合(GSFusion)模块,通过k近邻(KNN)搜索识别同时包含点云和视觉信息的体素;OccGen采用自适应融合模块动态整合相机和激光雷达分支的占用表示,使用3D卷积确定融合权重以聚合特征;HyDR提出在透视视图(PV)和BEV表示空间中整合多模态信息。
本研究通过融入语义分割掩码和激光雷达深度图增强视图转换,提高占用精度;同时在BEV空间融合多模态特征,并将其单向蒸馏到图像特征中,提升3D语义占用预测的精度和推理速度。
方法论
研究前提
给定多视图图像和激光雷达数据的联合输入,3D占用预测旨在估计自动驾驶车辆周围3D体素的占用状态和语义分类。输入包括环视相机的图像序列和点云,作为多模态输入;目标是训练神经网络生成占用体素图,其中每个体素被分配为未知、占用或特定语义类别。
整体架构
SDG-OCC的整体架构主要包含四个关键模块:提取图像特征的图像特征编码器、构建2D-3D特征转换的语义和深度引导视图转换、融合多模态特征并选择性将知识转移到图像特征的融合到占用驱动的主动蒸馏,以及用于最终输出的占用预测头(Figure 3)。

图像编码器
图像特征编码器旨在捕获多视图特征,为2D-3D视图转换提供基础。对于环视相机的RGB图像,首先使用预训练的图像骨干网络(如经典的ResNet或性能强劲的Swin-Transformer)提取多层图像特征 ,再通过特征金字塔网络(FPN)聚合这些特征,结合细粒度和粗粒度特征并下采样到特定尺度(通常为1/16)。
SDG视图转换
LSS流水线广泛用于3D感知中图像特征到BEV表示的转换,其基于每个像素的预定义深度范围构建虚拟点,预测深度分布权重和上下文特征,深度d处的特征表示为 ,所有虚拟点投影到BEV空间后,聚合每个高度z处的特征形成BEV特征。但LSS存在缺陷:即使深度间隔为0.5米,每个像素的特征数量仍很大(比点特征大一个数量级);BEV特征高度稀疏,不到50%的图像特征有效,导致占用预测性能不佳;减小深度间隔可提高精度但会显著增加计算负担,且引入无关特征(多数占用网格为空)。
为解决这些问题,提出一种新型视图转换方法,利用激光雷达的稀疏深度信息作为先验,在相同语义类别内扩散,再通过线性增加和线性减少离散化,在每个共视点周围生成高精度虚拟点种子(Figure 4)。具体步骤如下:

从多相机图像中提取特征,通过多任务头生成语义分割掩码,同时提取图像纹理特征和深度分布权重,深度头和语义头通过门控注意力补充跨任务信息。为更好利用语义信息,选择4倍下采样特征进行视图转换(更高下采样会增加像素的语义和深度模糊性)。
结合图像语义分割掩码和激光雷达提供的稀疏投影深度图,在相同语义类别掩码内扩散深度值,生成半稠密扩展深度图。公式如下:其中, 表示以当前点为中心的圆形区域, 表示具有N类别的分割掩码, 用于检查(p,q)处的语义标签是否与(i,j)处匹配:最终的扩展深度图 用 替换原始共点。
由于2D像素到3D点的投影偏差,对扩展深度图应用双向线性增量离散化以获得离散虚拟点,提升深度估计精度,同时减少虚拟点数量以提高推理速度。
通过外积 计算图像纹理特征 和深度分布权重 ,得到每个虚拟点的特征,再通过BEV池化生成相机的BEV特征 。该方法有效整合语义信息和稀疏深度数据,显著提升像素深度估计精度和视图转换速度。
融合到占用驱动的主动蒸馏
激光雷达分支包括点云特征提取、多模态融合和占用驱动的主动蒸馏(Figure 5)。首先,点云数据经过体素化和归一化生成初始特征,选择SPVCNN作为点-体素特征编码器(其能高效表示稀疏点云并有效保留细粒度细节),随后压缩对应尺度的体素特征生成BEV特征 。

多模态融合方面,激光雷达和相机的互补信息对3D感知至关重要。简单的融合方法通常沿通道维度连接激光雷达和图像BEV特征以提升性能,但外参冲突导致的特征错位会限制融合效果。因此,提出动态邻域特征融合模块,从交叉特征中单向提取邻域特征,并通过门控注意力机制动态调整其权重到源特征中。
具体而言,由于激光雷达和图像的BEV特征构建过程中存在外部投影偏差,导致两者特征错位,因此采用邻域注意力从交叉特征中提取对应像素的局部补丁特征,并通过门控注意力动态调整权重以选择性增强融合特征。图像特征 作为源特征表示为特征向量序列 ,通过线性层投影得到查询特征 ;激光雷达特征 作为交叉特征投影得到键 和值 特征。查询点i的局部邻域特征 计算如下:
其中, 表示交叉特征中相同位置为中心、大小为6的邻域, 表示相对位置偏差, 表示Softmax。通过门控注意力从局部邻域特征中获得融合特征 :
其中, 表示sigmoid函数, 表示线性变换矩阵(如1x1卷积), 指自适应平均池化。融合特征 经占用预测头处理得到SDG-Fusion模型。
为确保实时性,提出占用驱动的主动蒸馏,将融合特征单向转移到图像特征中。以激光雷达特征为源特征、图像特征为交叉特征,得到激光雷达主导的融合特征。借鉴相关研究,将空间分为两个区域:激光雷达和图像特征均占用的活跃区域(AR),仅激光雷达特征占用的非活跃区域(IR),公式如下:
其中, 中值为1表示对应模态占用该坐标。通常AR区域远大于IR区域,为避免模型过度强调AR区域的知识蒸馏,基于AR和IR区域的相对大小应用自适应缩放:
其中, 表示IR相对于AR的重要性, 和 是内在平衡参数, 和 分别是AR和IR区域的像素数量。
教师 和学生 的BEV特征之间的蒸馏损失为:
网络通过蒸馏损失和分类损失的总和进行训练,图像特征 经占用预测头处理得到SDG-KL模型。
占用预测
为从视图转换生成的粗BEV特征中获得3D预测输出,提出由BEV特征编码器和占用预测头组成的占用预测系统。BEV编码器使用多个残差块进行多尺度特征扩散,并整合特征金字塔以获取目标尺度的BEV特征;占用预测头通过多个3x3卷积层提取全局特征,并包含通道到高度的转换模块,将BEV特征从 重塑为 (其中B、C、 、D、H、W分别表示批量大小、通道数、类别数和3D空间维度,且 )。与传统3D编码器和占用预测头相比,该设计在保持可比性能的同时显著提高速度。
实验
数据集
Occ3D-nuScenes:大型自动驾驶数据集,包含1000个不同条件下的城市交通场景,分为700个训练场景、150个验证场景和150个测试场景。占用网格在X和Y轴上的范围为-40m至40m,Z轴上为-1m至5.4m,占用标记的体素大小为0.4m×0.4m×0.4m,语义标签包括17个类别(16个已知物体类别和1个“空”类别)。
SurroundOcc-nuScenes:基于nuScenes数据集,X和Y轴的预测范围为-50m至50m,Z轴为-5m至3m,体素标签大小为0.5m×0.5m×0.5m。
实现细节
使用ResNet-50作为默认图像骨干网络,SPVCNN作为激光雷达骨干网络。模型在GeForce RTX 4090 GPU上训练,使用AdamW优化器,学习率为1e-4,采用梯度裁剪。对于语义和深度引导的视觉转换,双线性增量离散化范围和扩散特征层数分别设置为1m和8。
与现有SOTA方法的对比
Occ3D-nuScenes:Table 1显示,现有方法多基于纯相机算法,很少关注多传感器融合。该方法采用紧凑骨干网络和轻量级激光雷达分支,在mIoU和大多数类别IoU上实现SOTA性能,且推理速度最佳,满足自动驾驶场景的实时要求。Figure 6的可视化结果显示,在昼夜场景中,该方法能有效识别基线方法无法正确预测的类别。

SurroundOcc-nuScenes:Table 2显示,结合激光雷达和相机输入,该方法在SurroundOcc验证集上实现SOTA性能(即使在更远距离),这得益于语义和深度引导的视图转换提升了深度估计精度,实现了不同网格大小和距离下的稳健占用预测。此外,利用相关研究生成的视觉掩码,性能与OCC3d-nuscenes相当,且仅使用轻量级ResNet50骨干网络和256×704的较低分辨率,凸显其有效性和效率。

不同范围的结果分析
对车辆周围不同范围的评估显示(Figure 7),短距离理解对自动驾驶至关重要(反应时间有限),该方法在mIoU和IoU上均显著优于基线FlashOcc;在激光雷达数据稀疏且少数像素定义大区域深度的长距离区域,该方法仍实现更优的IoU性能。

消融实验
各组件的有效性:Table 3显示,所有组件均对性能有贡献。基线模型的IoU为90.27%、mIoU为37.84%;集成语义和深度引导(SDG)视图转换后,IoU和mIoU分别提升4.35%和10.67%;通过整合额外激光雷达信息增强融合后,IoU和mIoU分别显著提升4.49%和7.08%;同时使用SDG和融合,IoU和mIoU分别比基线高5.19%和13.82%。

SDG视图转换的超参数:Table 4显示,在SDG视图转换中,双线性增长离散化范围 和扩散特征层数 控制虚拟点生成。较低的深度精度(如 和 )性能略低于其他配置,但过高的深度精度不会带来额外增益,最佳性能在 和 时实现。

FOAD模块的超参数:Table 5显示,对于邻域特征融合,参数 控制相邻像素特征的融合,增大 不会持续提升性能,最佳结果在 时实现。

自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com