ECCV2018
TsingHua University && Face++
Zeming Li
1. Motivation
当前的目标检测模型,不管是one-stage还是two-stage,都是采用的ImageNet分类数据集上预训练的分类模型来在检测数据集上fine-tune。但是分类模型应用到检测任务的主要问题是:
分类模型为了提高分类的准确率,通过很多次downsample来提高有效的receptive field。但是过多的downsample会让网络对物体的位置变化不敏感,同时容易丢失小目标的信息,以及普通目标的形状和边缘信息。这样会不利于目标检测任务。
2. DetNet Design
作者的DetNet是基于resnet-50,其基本模型以及FPN,DetNet的示意图如下所示:
B表示resnet-50的分类模型,通过5次downsample之后,feature map变成输入的1/32,然后GAP-分类。
A表示基于resnet的FPN结构,在stage5的基础上,再加了一次downsample构成stage6,然后添加一路top-down branch和低层特征图融合,在多个尺度上做预测。
C表示作者设计的DetNet结构,和FPN相比,同样是6个stage,但是stage5和stag