[论文阅读] Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers

xiongxyowo

已于 2025-03-10 16:54:43 修改

阅读量5.6k

点赞数 7

分类专栏： Polyp Segmentation 文章标签：划水

于 2021-12-27 14:40:06 首次发布

本文链接：https://blog.youkuaiyun.com/qq_40714949/article/details/122169366

版权

Polyp Segmentation 专栏收录该内容

9 篇文章

订阅专栏

论文地址：https://arxiv.org/abs/2108.06932
代码：https://github.com/DengPingFan/Polyp-PVT
发表于：CAAI AIR 23

Abstract

大多数息肉分割方法使用CNN作为其骨干，导致在编码器和解码器之间交换信息时出现两个关键问题：1)考虑到不同级别特征之间的贡献差异；2)设计一个有效的机制来融合这些特征。与现有的基于CNN的方法不同，我们采用了一个Transformer编码器，它可以学习到更强大和稳健的表征。此外，考虑到图像采集的影响和息肉难以捉摸的特性，我们引入了三个新的模块，包括级联融合模块(CFM)、伪装识别模块(CIM)和相似度聚合模块(SAM)。其中，CFM用于从高层特征中收集息肉的语义和位置信息，而CIM则用于捕捉伪装在低层特征中的息肉信息。在SAM的帮助下，我们将具有高层语义位置信息的息肉区域的像素特征扩展到整个息肉区域，从而有效地融合了跨层特征。所提出的模型被命名为Polyp-PVT，它有效地抑制了特征中的噪音，并显著提高了它们的表达能力。在五个广泛采用的数据集上进行的广泛实验表明，与现有的方法相比，所提出的模型对各种具有挑战性的情况(如外观变化、小物体)更加稳健，并实现了新的最先进的性能。

I. Method

摘要可能写的已经比较直白了，本文的最大特点就是用上了Transformer Encoder，其他的大创新…可能没有。
在这里插入图片描述
Encoder换成了PVT(v2)，而Decoder的话，这里放弃了U-Net那种逐级上采样的思路，而是取出Encoder不同层的特征各自进行处理，然后最后给揉起来，不过这种思路在某个二分割任务重也比较常见。那么接下来我们就简单提一下本文所提出的三个模块。

II. Cascaded Fusion Module(CFM)

在这里插入图片描述
有点拿更高级特征为低级特征做attention的意思，叠buff叠的有点复杂，这里就不细讲了，可以看图。这里需要注意的是做了一个事实上的中间decoder输出来构造side output supervision。

III. Camouflage Identification Module(CIM)

在这里插入图片描述
串联通道注意力和空间注意力…这个东西很早就有人专门研究过了^[1]，而且应用也极其广泛，只能说文中把这个搞成像自己提出的东西一样还另外取了个名字实在是不妥(好歹改一改)。不过也再次证明通道注意力和空间注意力这俩东西确实是刷点的好玩意。

IV. Similarity Aggregation Module(SAM)

在这里插入图片描述
看起来很复杂。回到最开始的网络整体结构图的话，SAM接受了两个输入，一个是CFM模块输出的高级特征 $T_1$ ，一个是SIM模块输出的低级特征 $T_2$ ，那么从输入就可以看出来这个东西做的还是多级特征融合。而多级特征融合，解决的其实就是怎么加权然后揉起来的问题，这里采用的是Transformer中的Self Attention思想，那么就成了怎么构造Q、K、V的问题。

具体操作上，对于高级特征 $T_1$ ，首先走两个1×1卷积进行降维，得到了 $Q$ 与 $K$ 。对于低级特征 $T_2$ ，也是类似的处理方式，得到 $V$ 。 $K$ 先与 $V$ 相乘，然后再与 $Q$ 相乘，至此便完成了Self Attention的过程。这里比较特别的是，对于融合后的特征，使用了一个GCN来进一步提取相关性。

总的来说可以认为是Non-Local、Self Attention、GCN的结合。

V. Loss

从第II节中可以看到，网络实际上是有个“辅助输出”的，但是这个东西并不会作为最终的预测结果，而单纯只是用来对网络训练进行监督。具体来说，网络的损失函数如下： $\mathcal{L}=\mathcal{L}_{\text {main }}+\mathcal{L}_{\text {aux }}$ main的话就是对最终结果 $P_2$ 的监督，而aux的话就是对中间结果 $P_1$ 的输出，有： $\mathcal{L}_{\text {main }}=\mathcal{L}_{\mathrm{IOU}}^{w}\left(P_{2}, G\right)+\mathcal{L}_{\mathrm{BCE}}^{w}\left(P_{2}, G\right)$ $\mathcal{L}_{\mathrm{aux}}=\mathcal{L}_{\mathrm{IoU}}^{w}\left(P_{1}, G\right)+\mathcal{L}_{\mathrm{BCE}}^{w}\left(P_{1}, G\right)$ 其实用的是一样的。

Ref

[1] Woo, S., Park, J., Lee, J. Y., & Kweon, I. S. (2018). Cbam: Convolutional block attention module. In Proceedings of the European conference on computer vision (ECCV) (pp. 3-19).