ACM MM‘25 | 自驾2D目标检测新SOTA！超越最新YOLO Series~

最新推荐文章于 2025-12-01 19:15:00 发布

转载最新推荐文章于 2025-12-01 19:15:00 发布 · 139 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247673909&idx=2&sn=4027993af6c1c0e838655b3c871bbe90&chksm=cfce7467f080ba3031331befde1afe79140aeedbd22f9abeaf1f946dc9e5083d49081bb74d41&scene=126&sessionid=0

文章标签：

#目标检测 #YOLO #人工智能 #计算机视觉

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享多媒体顶会ACM MM的自动驾驶场景目标检测SOTA新工作！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群加入，也欢迎添加小助理微信AIDriver005

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Xiaojian Lin 等

编辑 | 自动驾驶之心

🧭 导读

在自动驾驶场景下的目标检测任务中，如何精准建模多尺度语义信息，一直是影响检测精度与部署效率的关键难题。当前主流架构（如 YOLO、DETR）在追求轻量化和速度的同时，往往牺牲了特征一致性与层次表达能力，难以同时兼顾小目标检测与复杂场景理解。

为此，本文提出了一种 兼顾检测鲁棒性与部署效率的新型检测框架 Butter。该框架在 Neck 层引入两项核心创新：

频率一致性增强模块（FAFCE）：融合高频细节增强与低频噪声抑制，提升边界分辨率；
渐进式层次特征融合网络（PHFFNet）：逐层融合语义信息，引入空间感知机制，强化多尺度特征表达。

通过上述设计，Butter 实现了对多尺度目标的结构化建模，并在 Cityscapes、KITTI 等数据集上以极低参数量超越现有 SOTA 方法的检测精度，充分展示了其在真实自动驾驶场景下的适应性与工程落地潜力。

论文链接：https://www.arxiv.org/pdf/2507.13373
代码仓库：https://github.com/Aveiro-Lin/Butter

图1. 本图对比了所提出的 Butter 模型与目前两种最主流的二维目标检测方法YOLOv12和Hyper-YOLO在Neck结构设计上的差异

动机

在自动驾驶目标检测系统中，Neck 部署结构的设计对于平衡检测精度与模型效率至关重要。尽管当前已有多种轻量化方法被广泛应用（如 YOLO 系列），但这些方法常常在追求速度的同时，牺牲了特征表达的完整性与频率一致性，导致小目标漏检率高、边缘模糊、响应不稳定等问题，难以适应真实复杂路况。

现有 Neck 结构的常见问题主要集中在两类：

频率混叠：当前方法往往在上采样或融合阶段破坏了特征的频率结构，缺乏显式的频率建模机制，导致特征表达能力下降。
融合过程僵化：大多数 Neck 采用固定结构进行信息堆叠，无法根据不同尺度或语义层次进行动态融合，建模缺乏层次感，导致检测器感知能力受限。

为了克服上述结构性瓶颈，本文提出了一个 兼顾频率建模与多尺度融合的新型 Neck 框架 —— Butter，通过解耦式设计实现精度与效率的统一。

核心贡献：

本文设计了一个 频率一致性增强模块（FAFCE），首次在 Neck 层引入频域滤波思想，有效增强目标边界特征，抑制背景噪声。
提出 分层融合结构 PHFFNet，通过渐进式语义聚合提升多尺度表达能力，并引入空间感知机制。
本文在 Cityscapes、KITTI和BDD100K 等多个自动驾驶数据集上进行了广泛实验，验证了所提结构在多目标检测中的优势。
方法具备良好的 通用性与部署适配性，适用于主流 SOTA 检测器，具备轻量化潜力，可用于高性能自动驾驶视觉系统部署。

📘 方法简述

为了实现在复杂道路场景中的高精度目标检测与结构感知，本文提出了一个新颖的多阶段联合优化的目标检测框架Butter，其整体框架如图2所示。该模型专为自动驾驶环境中的单目图像目标检测任务设计，致力于在保证检测精度的同时，提升对遮挡物、结构边缘和语义层级的感知能力。

图 2： Butter 模型在自动驾驶目标检测中的完整工作流程

1）流程从一张尺寸为 640×640 的单目图像开始，经由 Backbone 模块中的 HGStem 提取初始特征；随后，这些特征将通过一系列轻量化 HGBlock、深度可分离卷积（DWConv）、以及卷积注意力模块（CBAM）进行进一步细化，然后送入 Neck 模块。Neck 模块由两部分组成：FAFCENet 与 PHFFNet。在 Neck 模块之后，模型在 Head 层使用四个输出头，生成包括类别标签、置信度分数和边界框等在内的最终检测结果。
2）左下角的 CBAM 模块对通道与空间注意力进行建模，引导网络关注关键特征区域。
3）右上角的分层融合模块（Hierarchical Fusion Block）通过上下文感知空间融合模块（CASF）实现多层级的特征交互。图中水平方向箭头表示特征交换，斜向箭头表示上采样与下采样过程。

🔍 (1) Backbone轻量化改进

在 Backbone 设计中，本文以 HGNetV2 为基础进行轻量化改进，构建了更适用于自动驾驶场景的主干网络。我们提出的轻量级 HGBlock 用 GhostConv、RepConv、DWConv 和 LightConv 等模块替代传统卷积层，从而显著减少参数量，提升推理效率。

进一步地，我们将 Stage2 至 Stage4 中原有的 LDS 模块 替换为更具代表性的 DWConv 模块，在保持特征表达能力的同时优化计算开销。为增强特征提取与表达能力，我们在 Stage4 阶段后引入了 SPPF 模块（Spatial Pyramid Pooling Fast） 与 CBAM 注意力模块（Convolutional Block Attention Module），用于进行多尺度语义增强与注意力引导。

这种模块引入顺序的设计，避免了低层特征提取阶段过早引入复杂运算导致的学习干扰，同时充分利用高层特征的上下文信息，对目标进行更精确的识别与定位。整体策略在 保证实时性 的同时，增强了网络在复杂驾驶环境中的多尺度感知与判别能力。

图 3：原始 HGNetV2 与轻量化 Butter 主干网络的架构对比图

📝 (2) 频率自适应特征一致性增强（FAFCE）组件

在自动驾驶目标检测中，特征融合常因低层语义信息缺失、高层空间细节丢失，导致语义不一致与边界错位，进而影响小目标识别与边界检测。为此，Butter 引入 频率自适应特征一致性增强（FAFCE） 模块，通过 高频增强 与 低频抑制 两种机制，提升多尺度特征融合的准确性和鲁棒性。

特征融合基本形式：

传统特征融合可表示为：

其中，是 Backbone 提取的第层特征图，是层的融合特征，是带可学习参数的上采样操作。但该方式容易造成特征模糊和边界弱化。

高频增强（High-Frequency Amplifier）：

FAFCE 通过增强高频分量，提取目标边界细节，形式为：

其中为高频增强操作，为可学习的滤波器矩阵，表示逐元素乘。

低频抑制（Low-Frequency Damping）：

通过抑制不相关的低频成分，强化判别区域：

其中为低频抑制操作，是可学习参数。

FAFCE 共包含三个阶段以逐步提升融合效果：

阶段1：初步融合（Preliminary Fusion）

其中和为特征权重矩阵。

阶段2：重采样（Resampling）

为空间位置对齐函数，用于匹配高低层特征的空间结构。

阶段3：精细融合（Refined Fusion）

最终输出的融合特征会传递至 Neck 中的 PHFFNet 模块，提升边界感知和目标定位精度。

整体而言，FAFCE 通过频率增强机制，在保证轻量化的同时，显著提升了特征融合的一致性与精度，特别适用于自动驾驶等对边界与小目标敏感的任务场景。

图 4：FAFCE 组件架构

📑 (3) 分层渐进特征融合网络（PHFFNet）组件

为了进一步提升特征层间的表达与对齐能力，Butter 模型引入了 Progressive Hierarchical Feature Fusion Network（PHFFNet） 模块，实现多层次特征的高效融合。PHFFNet 采用从低层向高层的逐级融合策略，有效缓解了非相邻层之间的语义差异，特别是在自动驾驶这类对目标边界要求较高的场景中，显著提升了检测准确性与对齐效果。

分层特征融合的数学表达：

PHFFNet 通过以下三个步骤实现逐层融合：

1. 初始融合阶段
将低层特征与进行融合，得到中间特征：

2. 中间融合阶段
将上一步结果与更高层的融合，得到：

3. 最终融合阶段
继续与融合，得到最终融合特征：

其中，、、为可学习的融合权重矩阵，用于控制不同层特征的融合强度。

空间动态权重机制（CASF）

PHFFNet 内置的 CASF（Context-Aware Spatial Fusion） 机制能动态地为不同空间位置的多层特征分配权重，从而增强模型对不同尺度与空间目标的适应性。该机制可通过如下公式表达：

其中，表示来自层的特征向量在位置的投影，是空间融合权重，且满足归一性约束：

该设计确保了每个位置上的融合结果是多层特征的平衡表达，有效抑制了特征冲突与冗余，有助于复杂场景下的目标检测表现提升。

🧪 实验结果

📊 (1) 定量分析

本文在三个主流自动驾驶数据集上对 Butter 模型进行了全面评估，包括 KITTI、BDD100K 和 Cityscapes，并与多个主流轻量级检测方法进行了对比。

在 KITTI 数据集上，Butter 在 mAP@50 上达到 94.4%，比当前最优方法 TOD-YOLOv7 高出 1.2 个百分点，而计算量（GFLOPs）仅为后者的约 1/3，展示了出色的 性能与效率平衡。

在 BDD100K 和 Cityscapes 数据集上，Butter 分别取得 53.7% 和 53.2% 的 mAP@50，显著优于同为轻量级的 Hyper-YOLO-S 方法，尤其在 Cityscapes 上提升达到 1.6。同时，Butter 模型的 参数量 比 Hyper-YOLO-S 减少了约 64%，显示出更优的 部署适应性。

综上，Butter 在保持检测精度领先的同时，显著降低了 模型复杂度，兼顾 检测性能、效率和 可部署性，在多个数据集上实现了最优的综合性能。

图 5： KITTI, BDD100K和Cityscapes数据集测试结果

🎯 (2) FAFCE 定性分析

为了进一步验证 FAFCE（Feature-Aware Fusion and Context Enhancement） 模块对目标检测性能的提升作用，本文对其 感受野变化 和 注意力热力图 进行了对比分析，如图 5 和图 6 所示。

在图 5 中，我们观察到：
在 未使用 FAFCE 模块 的情况下，模型的特征响应主要集中在图像中心区域，响应范围较窄，颜色变化不明显，说明模型的感受野较小，无法充分利用图像中的上下文信息。
而 引入 FAFCE 后，图像的响应区域更广泛，颜色对比明显增强，反映出模型对图像上下文和细节的关注程度显著提升。

在图 6 的热力图对比中也可以直观地看出：

未使用 FAFCE 的模型注意力较为分散，关注区域模糊，容易导致目标定位不准确；
加入 FAFCE 后，注意力更集中于关键目标及其上下文区域，显著提升了模型对关键物体的识别能力。

✅ 这一变化说明 FAFCE 模块能够有效增强模型的上下文感知能力，提升注意力机制的集中性和判别性，从而提高目标检测的准确性，特别适用于自动驾驶等需要精细理解场景的任务。

图 6：感受野中的特征响应

图 7： Butter 模型注意力热力图对比

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com