yolo v3学习笔记

最新推荐文章于 2023-09-27 10:47:15 发布

原创

最新推荐文章于 2023-09-27 10:47:15 发布 · 474 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #1024程序员节

前言

基本上都是从参考博客摘录下来，方便回忆，如有错误或者侵权，告删！

1、基本网络

在这里插入图片描述

YOLO V3采用了名为Darknet-53的网络结构(如上图)，之所以是53，是因为含有53个卷积层，最后的Connected是全连接层也是卷积层。按照下图计算层数： $(2 + 1 * 2 + 1 + 2 * 2 + 1 + 8 * 2 + 1 + 8 * 2 + 1 + 4 * 2 + 1) = 53$ 。
每个卷积层后面都会跟一个BN层和一个LeakyReLU层。卷积的Strides默认为（1，1），Padding默认为Same，当Strides为（2，2）时，Padding为Valid。Darknet-53网络采用 $256 * 256 * 3$ 作为输入，下图左侧的1、2、8、4表示为残差组件（如下图）的重复次数。
在这里插入图片描述

2、YOLO V3网络结构

在这里插入图片描述

DBL：如上图左下角所示，也就是代码中的Darknetconv2d_BN_Leaky，是yolo_v3的基本组件。就是卷积+BN+Leaky relu。对于v3来说，BN和leaky relu已经是和卷积层不可分离的部分了(最后一层卷积除外)，共同构成了最小组件。
resn：n代表数字，有res1，res2, … ,res8等等，表示这个res_block（残缺块）里含有多少个res_unit（残缺单元）。这是yolo_v3的大组件，yolo_v3开始借鉴了ResNet的残缺结构，使用这种结构可以让网络结构更深(从v2的darknet-19上升到v3的darknet-53，前者没有残差结构)。对于res_block的解释，可以在上图的右下角直观看到，其基本组件也是DBL。
concat：张量拼接。将darknet中间层和后面的某一层的上采样进行拼接。拼接的操作和残差层add的操作是不一样的，拼接会扩充张量的维度，而add只是直接相加不会导致张量维度的改变。

YOLO V3的网络一共有252层：

Add:23
- 主要用于res_block的构成，每个res_unit需要一个add层，一共有1+2+8+8+4=23层。
BatchNormalization:72
- BN层和LeakyReLU层数量完全一样（72层），在网络结构中表现为：每一次BN后面都会接一层LeakyReLU
Concatenate:2
Conv2D:75
- 卷积层一共有75层，其中有72层后面都会接BN+LeakyReLU的组合构成基本组件DBL。
InputLayer:1
LeakyReLU:72
UpSampling2D:2
ZeroPadding2D:5
- 每个res_block都会用上一个零填充，一共有5个res_block。

3、Backbone

整个V3结构中，是没有池化层和全连接层的。前向传播过程中，张量的尺寸变化是通过改变卷积核的步长来实现的。比如stride=(2, 2)，这就等于将图像边长缩小了一半(即面积缩小到原来的 $\cfrac{1}{4}$ )。在yolo_v2中，要经历5次缩小，会将特征图缩小到原输入尺寸的 $\cfrac{1}{2^5}$ ，即 $\cfrac{1}{32}$ 。输入为 $4$