YOLOV4模型原理和演化史

最新推荐文章于 2025-11-07 06:10:18 发布

原创

最新推荐文章于 2025-11-07 06:10:18 发布 · 8.7k 阅读

CC 4.0 BY-SA版权

文章标签：

本文深入解析YOLO目标检测算法从V1至V4的发展历程，包括网络结构、关键改进及性能提升。从one-stage概念的提出，到V4中CSPDarknet53主干网络与先进训练方法的应用，详述每一代YOLO如何逐步克服局限，提高检测速度与准确性。

针对于two-stage目标检测算法普遍存在的运算速度慢的缺点，yolo创造性的提出了one-stage。也就是将物体分类和物体定位在一个步骤中完成。yolo直接在输出层回归bounding box的位置和bounding box所属类别，从而实现one-stage。所以yolo的诞生就是为了解决识别速度的问题。
faster R-CNN也是一个系列的模型的高级版本，faster R-CNN就是典型的two-stage目标检测算法。先进行bounding box的位置回归，然后输出物体类别。faster R-CNN相对比较慢。

在这里插入图片描述

上面是结构图yolo_v1结构图，通过结构图可以轻易知道前向传播的计算过程，是很便于读者理解的。网络结构借鉴了 GoogLeNet。24个卷积层，2个全链接层。
yolov1的输出是一个7x7x30的张量，7x7表示把输入图片划分位7x7的网格，每一个小单元的另一个维度等于30。30=(2*5+20)。代表能预测2个框的5个参数(x,y,w,h,score)和20个种类。
如上图，每一个网格只能只能预测两个框，不利于识别密集型目标和小目标。整个图片最多识别7X7X2个box，最多识别49个目标。
yolo的做法并不是把每个单独的网格作为输入feed到模型，在i