faster rcnn的特征图是经过多层卷积得到的,非常抽象,小细节就少了,所以小目标的小细节就检测不到了。
输入图片是300*300的,不同阶段得到的预测特征层不一样,如上图,conv4_3得到的特征图是38*38的,但conv5_3得到的特征图是19*19的。如上图,每一个立方体都是一个预测特征层。用靠前的特征层来预测小的目标。
8*8的特征矩阵的抽象程度低一些,所以保留的细节信息更多一些,所以用来预测小目标。
default box 和之前的那个anchor差不多,只不过在不同层次的特征图上,scale不一样。
每一个特征层对应的dbox的尺度和比例。
这里以特征图1和特征图4为例。特征图1有4个dbox,特征图4有6个dbox。
k是dbox的个数,ck个用来做目标分类(c里面包括背景,也就是种类个数加1),4k个用来做回归,
正样本的选择,和人为选取的iou最大的;或者是iou大于0.5的。