Gated-SCNN: Gated Shape CNNs for Semantic Segmentation论文阅读笔记

最新推荐文章于 2022-12-07 09:43:36 发布

原创

最新推荐文章于 2022-12-07 09:43:36 发布 · 930 阅读

7 ·

CC 4.0 BY-SA版权

本文介绍GatedShapeCNN，一种新型两流CNN结构，旨在分离并独立处理形状信息，以增强语义分割效果。通过门控机制控制不同信息流的交互，结合边界损失和对偶任务损失，该模型在Cityspace数据集上取得了显著成果。

如何将知识分离出来？

作者在论文中argue到，CNN在设计的过程中有一个固有的无效性，因为他们会将color，shape和纹理信息一起处理（感觉可以找个时间介绍一些，图像中的color，shape或者texture信息对于图像的特征提取有哪些帮助作用）。但是实际上这些不同的信息，比如color或者shape，texture对于识别来说的话，应该是包含不同的数量的信息的。作者举了一个例子，一个人刚开始看一个物体的时候，需要看到完整地，细节地物体的边界，从而能够得到具有辨别性的shape编码。但是color和texture就相对包含一些low-level的信息，意思是，对于物体的识别就没有轮廓那么重要。这种思路实际上可以解释为什么resnet需要residual skip来提升网络的性能，或者是dense connection。以你为，通过添加这种additional connectivity能够帮助不同类型的信息通过不同scale的深度进行融合流通（个人感觉这个说服力对于解释为什么resnet work比较有说服力）。

这篇文章做了啥？

作者说到，在这篇文章中，他们提出了一个新的，two-stream CNN，能够显式的讲shape information独立成一个processing branch。两个stream，分别是传统cnn的stream，另外一个是shape stream，能够并行的处理信息。除了非常顶层的layer，作者说不允许两个stream信息的融合。
作者说到这篇文章的主要核心就是用一个门来控制两路信息的交互。具体来讲就是，作者利用传统cnn stream的high-level的information来denoise前几层shape stream的activations。这么一操作，shape stream能够有效的处理相关的信息。而且只使用比较浅的网络。为了能够使得shape information，作者在shape stream上添加了语义边界loss。我们更进一步的利用了一个新的loss function，来使得segmentation result和gt进行对齐。
并且作者还说道，他们的GSCNN是plug-and-play的，可以用在任何cnn上。作者做了大量的实验，比deep lab-v3的结果在miou指标上高了1.5个百分点，在f-boundary指标上高了4%个百分点。而且作者说他们的实验结果在一些很小的物体上的表现性能会更好，比如电线杆，交通标识或者交通灯等。