YOLOF：速度和效果均超过YOLOv4的检测模型

最新推荐文章于 2025-03-04 21:11:28 发布

原创

最新推荐文章于 2025-03-04 21:11:28 发布 · 7.1k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #机器学习 #python #算法

YOLOF（You Only Look One-level Feature）是一种新型目标检测模型，它挑战了传统FPN模块的必要性。研究发现，FPN的主要优势在于其分治策略而非多尺度融合。YOLOF通过Dilated Encoder和Uniform Matching策略，实现了无需FPN的高性能和快速推理。Dilated Encoder利用不同空洞率的残差模块扩大感受野，而Uniform Matching策略确保了不同大小物体的正样本数量均衡。实验证明，YOLOF在保持高精度的同时，显著提高了速度和内存效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

设为星标，干货直达！

0 摘要

YOLOF 全称是 You Only Look One-level Feature, 其通过详细的实验指出特征金字塔 FPN 模块的成功在于其对目标优化问题的分治解决方案，而不是我们常说的多尺度特征融合。针对该结论，设计了一个简洁优雅的无需复杂 FPN 的网络结构，仅仅依靠单尺度特征即可取得相匹配的效果，并且具备极快的推理速度，是一个不错的算法。

YOLOF 论文核心可以总结如下：

设计了多组实验，深入探讨了 FPN 模块成功的主要因素
基于实验结论，设计了无需 FPN 模块，单尺度简单高效的 Neck 模块 Dilated Encoder
基于 FPN 分治处理多尺度问题，配合 Neck 模块提出 Uniform Matching 正负样本匹配策略
由于不存在复杂且耗内存极多的 FPN 模块，YOLOF 可以在保存高精度的前提下，推理速度快，消耗内存也相对更小

项目地址：github.com/open-mmlab/mmdetection，欢迎 star~

1 FPN 模块分析

首先目标检测算法可以简单按照上述结构进行划分，网络部分主要分为 Backbone、Encoder 和 Decoder，或者按照我们前系列解读文章划分方法分为 Backbone、Neck 和 Head。对于单阶段算法来说，常见的 Backbone 是 ResNet，Encoder 或者 Neck 是 FPN，而 Head 就是对应的输出层结构。

一般我们都认为 FPN 层作用非常大，不可或缺，其通过特征多尺度融合，可以有效解决尺度变换预测问题。而本文认为 FPN 至少有两个主要作用：

多尺度特征融合
分治策略，可以将不同大小的物体分配到不同大小的的输出层上，克服尺度预测问题

作者试图分析上述两个作用中，最核心的部分，故选择最常用的 RetinaNet 进行 FPN 模块深入分析。

对 FPN 模块进一步抽象，如上图所示，可以分成 4 种结构 MiMo、SiMo、MiSo 和 SiSo，其中 MiMo 即为标准的 FPN结构，输入和输出都包括多尺度特征图。将 FPN 替换为上述 4 个模块，然后基于 RetinaNet 重新训练，计算 mAP 、 GFLOPs 和 FPS 指标

从 mAP 角度分析，SiMo 结果和 MiMo 差距不大，说明 C5 (Backbone 输出)包含了足够的检测不同尺度目标的上下文信息；而 MiSo 和 SiSo 则和 MiMo 差距较大，说明 FPN 分治优化作用远远大于多尺度特征融合
从下表 GFLOPs 和 FPS 可以看出，MiMo 结构由于存在高分辨率特征图 C3 会带来较大的计算量，并且拖慢速度

综上所示，可以得到一些结论：

FPN 模块的主要增益来自于其分治优化手段，而不是多尺度特征融合
FPN 模块中存在高分辨率特征融合过程，导致消耗内存比较多，训练和推理速度也比较慢，对部署不太优化
如果想在抛弃 FPN 模块的前提下精度不丢失，那么主要问题是提供分治优化替代手段

2 YOLOF 原理简析

作者为了克服 FPN 存在的内存占用多，速度慢问题，采用了 SiSo 结构，但是精度下降比较严重，从 35.9 变成了 24.6，故后续有针对性的改进，主要包括两个部分： Dilated Encoder 和 Uniform Matching。

2.1 Dilated Encoder

虽然 FPN 的主要作用是分治优化思想，但是多尺度融合也有一定作用，从上述实验也可以看出。并且虽然 C5 提供了足够的上下文，但是其感受野所对应的目标尺寸范围是有限的，无法应对目标检测场景中变化剧烈的目标尺寸。简要理解如上图所示，绿色点表示数据集中的多种目标尺寸，粉红色区域代表特征图能够有效表达的目标尺寸范围