YOLO 系列算法深度剖析:从 v3 到 v5 的演进

一、YOLOv3:架构优化与性能提升

(一)Darknet-53 骨干网络

Darknet-53 拥有 53 个卷积层,在图片分类训练集上训练时输入图像尺寸为 256x256,用于 YOLOv3 时输入尺寸是 416×416。相比同期的 ResNet-101、ResNet-152,它效果更好且运行速度快。这得益于其独特设计,没有最大池化层,下采样通过卷积层实现,且卷积核个数较少,参数和运算量小。同时,残差网络的应用有效解决了深层网络的梯度消失、爆炸及性能退化问题。

(二)网络模型与训练细节

YOLOv3 输入 416x416 的图像,预测出 52×52、26×26、13×13 三个特征层,在每个特征层上使用 3 个预设边界框尺寸,共 9 个 anchor boxes(基于 COCO 数据集聚类得到) 。训练时,正负样本匹配规则为:与 ground truth 的 iou 值最大的预测框或 anchor 是正样本;iou 值大于设定阈值(原论文为 0.5)但非最大的忽略;小于阈值的为负样本。非正样本仅存在置信度损失。

(三)损失函数

损失函数由目标定位偏移量损失、目标置信度损失和目标分类损失组成。坐标损失用误差平方和,类别损失采用二值交叉熵。通过平衡系数调整各部分损失权重,让模型在训练中更好地学习目标定位、置信度和分类信息。

(四)小目标检测改进

相比 YOLOv1,YOLOv3 对小目标检测效果更好。这是因为其扩充了预测框数量,增加了 grid cell 个数,采用多尺度预测(类似 FPN 结构),改进了损失函数(惩罚小框项),优化了网络结构(骨干网络与跨层连接),还使用了更合理的正负样本定义和标签方式。

二、YOLOv4:多方面创新优化

(一)改进方法分类

  1. Bag of freebies(BoF):主要改变训练策略或增加训练成本,但不影响测试性能。包括数据预处理(光度和几何畸变、Mosaic 数据增强等)、模拟对象遮挡(random erase、CutOut 等方法)、采用 DropBlock regulari
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值