论文阅读FCN-Transformer Feature Fusion for PolypSegmentation

本文介绍了一种新的图像分割框架FCBFormer,它通过双分支设计——全卷积分支(FCB)和Transformer分支(TB),优化了结肠镜图像中的息肉检测和分类。TB利用PVTv2和PLD增强局部特征,而FCB则保持全尺寸分辨率。实验结果显示了显著的性能提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文提出了一种名为Fully Convolutional Branch-TransFormer (FCBFormer)的图像分割框架。该架构旨在结合Transformer和全卷积网络(FCN)的优势,以提高结肠镜图像中息肉的检测和分类准确性。

1,框架结构:

模型采用双分支结构,两个并行分支:一个全卷积分支(FCB)和一个Transformer分支(TB)。FCB返回全尺寸(h×w)特征图,而TB返回降尺寸(h/4 × w/4)的特征图。TB的输出张量经过上采样并与FCB的输出张量在通道维度上进行拼接,然后通过预测头(PH)处理,生成输入图像的全尺寸分割图。

2,TB分支的结构

TB使用ImageNet预训练的金字塔视觉Transformer V2(PVTv2)作为图像编码器,该编码器返回一个具有4个级别的特征金字塔,这个金字塔随后被用作渐进式局部解码器(PLD)的输入。

在PLD中,金字塔的每个级别首先通过一个局部强调(LE)模块进行处理,以解决基于Transformer的模型在特征表示中表示局部特征的不足,然后通过逐步特征聚合(SFA)融合经过局部强调的金字塔特征。最后,融合的多尺度特征用于预测输入图像的分割图。

3,LE模块的结构

LE模块,即局部强调(Local Emphasis)模块,是SSFormer架构中用于增强Transformer编码器提取的特征的局部特征表示的组件。在FCBFormer的TB(Transformer Branch)中,LE模块的目的是通过强调图像的局部区域来改善Transformer模型在处理细节时的性能。

LE模块的具体由卷积层、激活函数、残差连接、组归一化、通道数调整等部分组成。

LE模块的设计旨在通过突出局部特征来弥补Transformer在处理精细细节时的不足,从而在分割任务中提供更准确的局部边界信息。

4,FCB分支的结构

如上图C所示,是由残差模块组成的U型结构。

5,实验结果

### 回答1: FCN-8s、FCN-16s、FCN-32s是基于全卷积神经网络(Fully Convolutional Network,FCN)的语义分割模型。它们分别使用了8倍、16倍、32倍的下采样和上采样,以实现对输入图像的像素级别的分类和分割。其中,FCN-8s是最早提出的模型,FCN-16s和FCN-32s则是在其基础上进行了改进和优化。这些模型在图像分割领域取得了很好的效果,被广泛应用于自动驾驶、医学图像分析等领域。 ### 回答2: FCN是全卷积神经网络(Fully Convolutional Networks)的缩写,是在CNN(卷积神经网络)的基础上进行修改和扩展得到的一个特殊网络结构。FCN的主要特点是可以处理图像的变换和尺度变化,能够输出与输入图像大小相同的特征图,是语义分割和目标识别领域常用的方法之一。 FCN-8s,FCN-16s和FCN-32s是FCN的三种不同变种。其中的数字表示网络最后一层的步长(stride)。简单来说,stride指的是卷积核在对图像进行卷积时每次移动的像素数。步长为1时,卷积核每次移动一个像素;步长为2时,每次移动两个像素。 FCN-32s是最简单的FCN结构,它的输出尺寸为输入图像尺寸的1/32,每层卷积后,特征图的尺度会缩小2倍,因此需要先将输入图像缩小32倍,然后送入网络进行训练和测试。FCN-32s的性能较低,适合处理相对较小的图像。 FCN-16s和FCN-8s是FCN网络中比较优秀的版本。他们的输出分别为输入图像尺寸的1/16和1/8。FCN-16s和FCN-32s的主要区别在于初始化策略不同。在FCN-16s中,使用了另一个FCN-32s模型的参数来进行初始化,同时保留了FCN-32s中的pool5层,这样可以利用FCN-32s中的pool5层提取的高层特征来进行计算,从而提高分割的精度。在FCN-8s中,使用了FCN-16s模型的参数来进行初始化,同时再加入一个新的迭代层来进行计算,提取更多的低层特征,从而进一步提高分割的精度。 总之,FCN-32s、FCN-16s和FCN-8s是一系列针对不同需求的图像语义分割神经网络。在实际应用中,可以根据具体需求和计算资源等因素选择不同的FCN结构,以获得更好的分割效果。 ### 回答3: FCN(Fully Convolutional Network)是一种基于卷积神经网络的语义分割网络模型。FCN架构的出现,使得我们可以用卷积神经网络来解决图像语义分割问题。FCN-8s、FCN-16s、FCN-32s是FCN网络的不同版本,下面我将分别介绍它们的特点和应用。 FCN-8s FCN-8s是第一个被提出并被广泛应用的FCN版本。它的主要特点是将VGG-16网络的最后三层全连接层(FC6,FC7和FC8)替换为卷积层。这个替换过程将输入图像映射到相应的feature map,以此来解决图像中像素级别的物体分类问题。FCN-8s包含了三个分辨率的feature map,分别是14×14,28×28和56×56。这三个特征图分别代表了高层次,中层次和低层次的图像特征。FCN-8s性能达到了目前最好的语义分割模型。 FCN-16s FCN-16s是FCN的改进版本。它是在FCN-8s的基础上加入了额外的pooling层,从而使得feature map的分辨率减小了,并提高了模型的速度。FCN-16s包含了两个分辨率的feature map,分别是14×14和28×28。它的主要应用是在对速度要求较高的任务中进行物体的语义分割。 FCN-32s FCN-32s是最简单的FCN版本。它是将VGG-16网络的所有全连接层都替换为卷积层,并且只有一个feature map,分辨率为32×32。FCN-32s的训练速度和推断速度都很快,并且是一个参数较少的模型。但是,它的性能要略低于FCN-16s和FCN-8s。 总之,FCN-8s、FCN-16s和FCN-32s都是基于卷积神经网络的图像语义分割模型,它们分别在速度和准确性方面有所不同,并适用于不同类型的场景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

蓝海渔夫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值