Large Kernel Matters论文解读

最新推荐文章于 2023-07-16 10:31:49 发布

原创

最新推荐文章于 2023-07-16 10:31:49 发布 · 2.3k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#Semantic Segmentation #CV

本文深入探讨了大卷积核在语义分割任务中的优势，介绍了一种名为Global Convolutional Network (GCN) 的方法，该方法通过避免使用全局池化和fc层，保持全卷积结构，以增强定位任务的性能。GCN采用大卷积核以实现特征图与每个像素分类结果之间的密集连接，改善分类准确性。此外，文中还提到了Boundary Refinement模块用于边缘锐化。实验表明，GCN不仅有助于网络收敛，还能显著提高分割精度。

Introduction

这篇文章来自于17年的ICCV会议，作者来自清华与旷视，这篇文章提出大的卷积核对分割网络非常重要，并使用论文中提出的GCN（Global Convolution Network）显著提高了分割的精度。这篇文章还有一个后续，叫做ExFuse，但ExFuse这篇文章更多的是各种小trick的叠加，质量一般。
ExFuse的论文全称为ExFuse: Enhancing Feature Fusion for Semantic Segmentation，有兴趣的同学可以去看一下。
回到文章内容，对于如今的CNN，使用1x1, 3x3等小卷积核的堆叠来模拟大卷积核的操作已经是非常常见了，但是文章提出，在语义分割领域，大的卷积核却要比小的卷积核堆叠更为好使，一方面是因为实际感受野的大小区别，另一方面则是因为分割要同时完成分类与定位。

而分类与定位任务是天生矛盾的：
1、对于分类任务，模型需要具有平移不变性，无论关键物体是旋转还是位移缩放，模型都要能保持对目标的激活，从而进行分类
2、对于定位任务，模型需要对物体的位置非常敏感，需要对物体的每个像素都判断其语义信息，并根据所有像素的语义信息来找到物体的位置，如果模型具有非常好的平移不变性，那就很难以确定物体的具体空间位置，定位的精度也会非常低。

为了解决定位与分类的矛盾，文章提出了两个原则：
1、从定位的角度考虑，模型一定要全卷积网络，因为全局池化和fc层会破坏原图的相关位置信息，而卷积可以保留这些信息。
2、从分类的角度考虑，网络应该使用较大的卷积核使特征图和逐像素的分类器之间能够保持密集的连接，而不是通过小卷积核只保留较稀疏的连接。

如上所示，在分类网络中，所有特征都贡献给一个分类器，由分类器判断物