Introduction
这篇文章来自于17年的ICCV会议,作者来自清华与旷视,这篇文章提出大的卷积核对分割网络非常重要,并使用论文中提出的GCN(Global Convolution Network)显著提高了分割的精度。这篇文章还有一个后续,叫做ExFuse,但ExFuse这篇文章更多的是各种小trick的叠加,质量一般。
ExFuse的论文全称为ExFuse: Enhancing Feature Fusion for Semantic Segmentation,有兴趣的同学可以去看一下。
回到文章内容,对于如今的CNN,使用1x1, 3x3等小卷积核的堆叠来模拟大卷积核的操作已经是非常常见了,但是文章提出,在语义分割领域,大的卷积核却要比小的卷积核堆叠更为好使,一方面是因为实际感受野的大小区别,另一方面则是因为分割要同时完成分类与定位。
而分类与定位任务是天生矛盾的:
1、对于分类任务,模型需要具有平移不变性,无论关键物体是旋转还是位移缩放,模型都要能保持对目标的激活,从而进行分类
2、对于定位任务,模型需要对物体的位置非常敏感,需要对物体的每个像素都判断其语义信息,并根据所有像素的语义信息来找到物体的位置,如果模型具有非常好的平移不变性,那就很难以确定物体的具体空间位置,定位的精度也会非常低。
为了解决定位与分类的矛盾,文章提出了两个原则:
1、从定位的角度考虑,模型一定要全卷积网络,因为全局池化和fc层会破坏原图的相关位置信息,而卷积可以保留这些信息。
2、从分类的角度考虑,网络应该使用较大的卷积核使特征图和逐像素的分类器之间能够保持密集的连接,而不是通过小卷积核只保留较稀疏的连接。
如上所示,在分类网络中,所有特征都贡献给一个分类器,由分类器判断物