motivation
作者指出对于检测来说,一般需要更多的标注信息,检测的效果才会好,但是标注信息需要浪费人工去标注,代价大,同时,也会加入标注者的主观信息,更重要的是标注信息并不是对所有的图片中的物体都有很好的检测效果,对于遮挡和裁剪的目标对象,标注信息就会非常困难。作者探究能否用image label训练。
Network architecture
网络结构是在Alexnet的基础上,将第六、七层的全连接层改为卷积层,再加上两层自适应卷积层,最后一个自适应卷积层后面添加max-pooling层,输出响应最大的点。因为整个网络只有卷积层,所以对输入图像的大小没有限制,前五个卷积层是在Imagenet上进行训练的,后面的几层是在Pascal数据集上进行训练的,所以虽然层数很多,但总体的训练时间没有很长。