论文传送门:YOLO9000: Better, Faster, Stronger
Yolov2的改进:
1.批标准化(Batch Normalization):在conv后加入BN(conv不再使用bias),改善模型的收敛性,同时去掉dropout;
2.高分辨率分类器(High Resolution Classifier):使用448x448的完整分辨率对分类网络(主干网络)进行10epoch的预训练;
3.锚框(Convolutional With Anchor Boxes):引入anchor的概念来预测bbox,每个anchor单独预测目标和类别,目标预测先验框(anchor)与真实框之间的IOU,类别预测存下目标的前提下,该类别的条件概率;
4.尺寸聚类(Dimension Clusters):使用k-means聚类的方法获得anchor的预设尺寸;
5.直接位置预测(Direct location prediction):将网络输出的中心坐标偏移参数 t x t_x tx、 t y t_y ty和置信度(IOU) t o t_o to通过sigmoid激活函数,将其值压缩在(0,1);
6.细粒的特征(Fine-Grained Features):在backbone中提取浅层特征,经过passthrough layer(focus)后与深层特征相接(concat);
7.多尺度训练(Multi-Scale Training):每10个batches,随机改变网络输入图像尺寸,从 [ 320 , 352 , . . . , 608 ] [320,352,...,608] [320,352,...,608]中选取(32的整数倍,因为图像经过网络缩减了32倍),增强模型的鲁棒性;
Yolov2的结构:
使用Darknet19(去掉分类部分)作为backbone提取特征,使用卷积和passthrough layer处理浅层特征,使用两层卷积处理深层特征,并对两层特征进行Concat,最后经过卷积变换得到通道数为125的输出。
图示Darknet19的输入图像尺寸为224,但在Yolov2中作backbone,输入图像尺寸为 [ 320 , 352 , . . . , 608 ] [320,352,...,608] [320,352,...,