本博客中YOLO系列均为个人理解笔记,欢迎评论指出理解有误或者要讨论的地方
YOLOV3模型相比于v2来说,实质性的改进并不大,更多的是一些技术的堆叠。其并不像yolov2对于v1一样,由巨大的改变和提升。
其相对于yolov2,改变在于:
1) Yolov3模型骨干网络发生了改变。
其并没有继续用v2的骨干网络DarkNet-19,而是改变为了Darknet-53.而网络深度增加也对提升效果做出了贡献。
注意:我们发现拥有152层的resnet效果还不如53层的darknet-53??其实对比两个模型我们可以发现,两个模型大体上类同,区别就在于resnet中实现了最大池化下采样操作,而在本backbone中没有用,不知道是不是这个原因??
2)在YOLOV2中,作者对v1中每个特征方格预测2个框的方法进行了修改,用聚类的方法确定scale和比例尺寸,由此来决定每个特征方格预测多少框。但是在v3中,仍然采用1:1,1:2,2:1三种尺寸来预测三个框。
看完改变后,下面看v3的整体结构图:
V3网络一共会产生三个特征输出层,对应尺寸分