一文读懂 YOLOv4：兼顾速度与精度的目标检测 “全能选手”

最新推荐文章于 2025-11-30 10:01:19 发布

原创最新推荐文章于 2025-11-30 10:01:19 发布 · 726 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#YOLO #目标检测 #目标跟踪

部署运行你感兴趣的模型镜像

YOLOv4 是 YOLO 系列中极具里程碑意义的版本，它虽更换了作者，却延续了系列 “高效检测” 的核心精髓。更重要的是，YOLOv4 通过 “亲民化” 设计（单 GPU 即可完成训练）和系统性优化，在速度与精度间找到了绝佳平衡，成为当时目标检测领域的 “全能选手”。今天我们就从核心理念出发，拆解 YOLOv4 的关键技术与改进思路。

一、YOLOv4 的核心定位：让高效检测 “人人可用”

YOLOv4 的核心目标有两个：一是提升检测精度，二是降低使用门槛。从性能数据来看，在 COCO 数据集上，YOLOv4 的 mAP（平均精度均值）远超 YOLOv3，且推理速度能与实时检测需求匹配（如在 V100 显卡上，FPS 表现优于 EfficientDet 等主流模型）；从使用成本来看，它打破了 “高精度模型依赖多 GPU 训练” 的惯例，单 GPU 即可完成训练，让更多开发者能轻松上手。

它的改进逻辑围绕 “两大核心方法” 展开：

Bag of Freebies（BOF，免费午餐）：仅增加训练阶段的成本，不影响推理速度，通过数据增强、正则化、损失函数优化等提升精度；
Bag of Specials（BOS，特色技巧）：少量增加推理成本，显著提升模型能力，通过网络结构优化、注意力机制、特征融合等强化特征提取与目标预测。

二、Bag of Freebies（BOF）：不耗推理成本的精度提升术

YOLOv4 的 “免费午餐” 集中在训练环节，通过优化数据、正则化网络、改进损失函数，在不增加推理耗时的前提下，大幅提升模型泛化能力与检测精度。

1. 数据增强：让模型 “见多识广”

数据增强的核心是通过多样化训练数据，让模型适应更多场景，避免过拟合。YOLOv4 引入了多种高效的数据增强手段：

Mosaic（马赛克增强）：参考 CutMix 思路，将 4 张不同的图像拼接成 1 张进行训练。这种方式能让模型同时学习多个场景的特征，尤其对小目标和复杂背景的检测能力提升明显；
Random Erase（随机擦除）：用随机像素值或训练集的平均像素值，替换图像中的随机区域，模拟目标部分遮挡的场景；
Hide and Seek（藏与找）：按一定概率随机隐藏图像中的部分补丁（Patch），强迫模型关注目标的关键特征而非冗余信息；
Self-adversarial-training（SAT，自对抗训练）：通过在图像中引入微小噪音，制造 “对抗样本”，增加训练难度，提升模型对干扰信息的鲁棒性。

此外，YOLOv4 还保留了亮度、对比度、色调调整，以及随机缩放、剪切、翻转、旋转等基础数据增强手段，进一步丰富训练数据的多样性。

2. 网络正则化：让模型 “不盲目自信”

正则化的目的是防止模型过拟合，让模型在未知数据上的表现更稳定。YOLOv4 主要采用两种正则化方法：

DropBlock：相比传统 Dropout（随机丢弃单个像素点），DropBlock 会随机丢弃一个连续的区域。这种方式能避免模型过度依赖局部特征，迫使模型学习更全局、更鲁棒的特征；
Label Smoothing（标签平滑）：解决模型 “标签过于绝对” 的问题。例如，原本 “猫” 的标签为（0,1），经过标签平滑后会调整为（0.05, 0.95），让模型不再对单一类别 “过度自信”，减少过拟合风险。实验表明，标签平滑能让类别簇内更紧密、簇间更分离，提升分类精度。

3. 损失函数优化：让边界框预测 “更精准”

YOLOv3 及之前的版本使用 IOU 损失函数，但 IOU 存在明显缺陷：当预测框与真实框无重叠时，IOU 为 0，无法计算梯度；且相同 IOU 值无法区分边界框的位置差异。YOLOv4 通过迭代优化损失函数，解决了这些问题：

GIOU（广义 IOU）：引入 “最小封闭矩形 C”（能同时包含预测框 A 和真实框 B 的最小矩形），通过计算（C - (A∪B)）/ C，弥补 IOU 无重叠时的梯度问题，让预测框能朝着真实框方向优化；
DIOU（距离 IOU）：在 GIOU 基础上，增加 “预测框与真实框中心点欧式距离” 的考量，直接优化中心点距离，让边界框回归速度更快，同时解决 GIOU 在某些场景下优化缓慢的问题；
CIOU（完全 IOU）：进一步加入 “边界框长宽比” 的约束，让损失函数同时考虑 “重叠面积、中心点距离、长宽比” 三个几何因素，使边界框预测更贴合真实目标的形状。

此外，YOLOv4 还将传统 NMS（非极大值抑制）升级为DIOU-NMS，在判断是否删除重叠框时，不仅考虑 IOU 值，还加入中心点距离的考量，减少因重叠导致的目标漏检。

三、Bag of Specials（BOS）：轻量推理成本的性能飞跃

“特色技巧” 主要针对网络架构与特征处理，少量增加推理耗时，但能显著提升模型的特征提取能力与目标检测精度，是 YOLOv4 性能突破的核心。

1. 网络骨干优化：更强的特征提取能力

YOLOv4 采用CSPDarkNet53作为骨干网络，在 DarkNet53 的基础上融入 CSPNet（跨阶段部分网络）的思想，核心改进是：

将每个残差块的特征图按通道维度拆分为两部分，一部分正常经过残差网络（含卷积、激活函数），另一部分直接通过 “shortcut” 路径拼接至该块的输出端；
这种设计能减少计算量，同时增强特征的复用性，让模型在提取深层特征时，保留更多浅层细节信息，提升小目标检测能力。

2. 特征融合升级：更全面的多尺度信息

YOLOv3 通过 “上采样 + 特征拼接” 实现多尺度融合，YOLOv4 则引入PAN（路径聚合网络），进一步优化特征传递路径：

传统 FPN（特征金字塔网络）仅采用 “自顶向下” 的路径，将高层（大感受野）特征传递到低层；
PAN 在此基础上增加 “自底向上” 的路径，让低层（小感受野、细节丰富）特征能更高效地传递到高层，实现 “双向特征聚合”，同时通过 “拼接” 而非 “加法” 融合特征，保留更多细节信息，大幅提升小目标与中目标的检测精度。

此外，YOLOv4 还加入SPPNet（空间金字塔池化），通过多尺度最大池化，让不同尺寸的输入特征能输出统一维度的特征图，增强模型对输入尺寸的适应性，同时提取更丰富的多尺度特征。

3. 注意力机制：让模型 “聚焦关键”

注意力机制能让模型自动关注对检测更重要的区域，YOLOv4 主要引入两种注意力模块：

SAM（空间注意力模块）：通过对特征图进行通道维度的最大池化与平均池化，生成空间注意力权重图，强化目标区域的特征，抑制背景干扰；
CBAM（卷积块注意力模块）：结合 “通道注意力” 与 “空间注意力”，先通过通道注意力筛选关键特征通道，再通过空间注意力聚焦目标区域，双重优化特征表达，提升模型对关键信息的捕捉能力。

4. 其他细节优化：细节处的性能打磨

YOLOv4 还在细节上做了两处关键优化：

Mish 激活函数：替代传统 ReLU 激活函数。Mish 的公式为f(x) = x · tanh(ln(1 + e^x))，其曲线更平滑，能保留更多负区间的特征信息，相比 ReLU 更符合实际数据分布，虽增加少量计算量，但能提升模型精度；
消除网格敏感性：YOLOv3 中，边界框坐标回归值限制在 0-1 之间，当目标中心靠近网格边界时，需极大的回归值才能覆盖目标。YOLOv4 通过在激活函数前增加一个大于 1 的系数，扩大回归值范围，缓解网格边界处的检测短板。