yolov3论文解读

论文题目:YOLOv3: An Incremental Improvement

论文地址

论文思想

      YOLOv3主要改进了网络结构、网络特征及后续计算三个部分

1、 Darknet-53 模型结构

        yolov3提出了一个新的网络结构Darknet53,网络主要是由一系列的1x1和3x3的卷积层组成(每个卷积层后都会跟一个BN层和一个LeakyReLU)层,作者说因为网络中有53个convolutional layers,所以叫做Darknet-53(2 + 1*2 + 1 + 2*2 + 1 + 8*2 + 1 + 8*2 + 1 + 4*2 + 1 = 53 按照顺序数,最后的Connected是全连接层也算卷积层,一共53个)。下图就是Darknet-53的结构图,在右侧标注了一些信息方便理解。(卷积的strides默认为(1,1),padding默认为same,当strides为(2,2)时padding为valid)。

 2、 YOLOv3 模型结构

        原Darknet53中的尺寸是在图片分类训练集上训练的,所以输入的图像尺寸是256x256,下图是以YOLO v3 416模型进行绘制的,所以输入的尺寸是416x416,预测的三个特征层大小分别是52,26,13。      

 3 、目标边界框的预测

   YOLOv3网络在三个特征图中分别通过( 4 + 1 + c ) × k 个大小为1 × 1的卷积核进行预测,k为预设边界框(bounding box prior)的个数(在每个预测特征层中k默认取3),c为预测目标的类别数,其中4k个参数负责预测目标边界框的偏移量,k个参数负责预测目标边界框内包含目标的概率,ck个参数负责预测这k个预设边界框对应c个目标类别的概率。下图展示了目标边界框的回归过程。图中虚线矩形框为Anchor模板(这里只用看 \left (p_{w},p_{h} \right ),实线矩形框为通过网络预测的偏移量(相对Grid Cell的左上角)计算得到的预测边界框。其中\left (c_{x},c_{y} \right )为对应Grid Cell的左上角坐标,\left (p_{w},p_{h} \right )为Anchor模板映射在特征层上的宽和高,\left ( t_{x}, t_{y}, t_{w}, t_{h}\right )分别为网络预测的边界框中心偏移量,以及宽高缩放因子,\left ( b_{x}, b_{y}, b_{w}, b_{h}\right )为最终预测的目标边界框, 从\left ( t_{x}, t_{y}, t_{w}, t_{h}\right )\left ( b_{x}, b_{y}, b_{w}, b_{h}\right )的公式如图右侧所示,其中σ(x)是sigmoid函数其目的是将预测偏移量缩放到0到1之间(这样能够将每个Grid Cell中预测的边界框的中心坐标限制在当前cell当中,作者说这样能够加快网络收敛)。

下图给出了三个预测层的特征图大小以及每个特征图上预设边界框的尺寸(这些预设边界框尺寸都是作者根据COCO数据集聚类得到的):

4 、正负样本匹配

       按照原论文中的思想对每个ground truth,如果有多个bounding box prior和其匹配IOU超过设定阈值,最多只会分配一个分值最高的bounding box prior,如果没有bounding box prior和ground truth匹配那就没有位置损失和类别损失,只有目标损失。

       但如果按照原论文的思想去做的话匹配到的正样本会很少,实际代码是bounding box prior和其匹配IOU超过设定阈值就认为是正样本。

 5、损失函数

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值