语义分割之Gated Feedback Refinement Network for Dense Image Labeling

本文介绍17年CVPR论文提出的门控反馈细化网络(G-FRNet),这是用于密集标记任务的深度学习框架。它解决了基于深度学习的语义分割模型中特征整合问题,通过门单元滤除信息模糊与歧义,实验表明其性能优于现有方法,广泛CNN模型可从中受益。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Gated Feedback Refinement Network for Dense Image Labeling


image.png

原始文章:https://www.yuque.com/lart/papers/gfrnet

主要工作

本文是17年的CVPR的论文,主要解决了之前基于深度学习的语义分割模型中存在的一些问题,主要针对的问题是如何更有效的整合和利用低级特征与高级、局部和全局特征。

有效整合局部和全局信息对于密集标签问题至关重要。大多数基于编解码器架构的现有方法简单地连接来自较早层的特征,以在细化阶段中获得更高频率的细节。但是前向传播中的模糊信息,则可能导致最终的细化结果的质量存在限制。

  • 本文提出了一种门控反馈细化网络(G-FRNet),这是一种用于密集标记任务的端到端深度学习框架,可解决现有方法的这种局限性。
  • 首先G-FRNet进行粗略预测,然后在细化阶段有效地整合局部和全局上下文信息来逐步细化细节。
  • 本文引入了控制向前传递信息的门单元,以借助深层特征来辅助浅层特征滤除其中的信息的模糊与歧义。使用更深,更有辨别力的层的特征来过滤从辨别能力较差但定位更精细的早期层传递的信息。
  • 文章认为深层特征可以帮助浅层信息恢复特征中的模糊性内容,而单独的浅层信息并不能很好的恢复,因为其感受野不是很大或者并不具有足够的区分性

在几个具有挑战性的数据集上的实验结果表明,所提出的模型比现有最先进的方法具有更好性能。 基于消融分析的实验结果揭示了粗到细门控细化值的普遍性。广泛的CNN模型可以从这些简单的体系结构修改中受益。

网络结构

image.png

Gate Unit

image.png

image.png

这里门控的设计使用深层的特征来控制浅层的特征,得到处理后的特征送入解码器。

Gated Refinement Unit

image.png

image.png

就是普通的卷积处理,不过这里有个设定,就是图中 + 操作表示的是拼接, U 表示上采样。这里拼接的时候,两部分的特征image.png,这里C是总的类别数量。这里给出了两个理由:

image.png

  • 降低计算量
  • 避免通道数少的特征被通道数多的特征所淹没

Stage-wise Supervision

这里使用了深监督策略,损失如下:

image.png

其中的η表示原始真值,这里的R表示放缩到对应的特征图大小后的真值。这里使用交叉熵,最终损失直接加和,权重都为1。

实验结果

image.png

image.png

image.png

image.png

image.png

image.png

相关链接

相关文章——LRN

这应该是本文的初期工作,本文在此基础上添加了门控机制,这篇LRN的文章的结果在本文GFRNet中也有展现:https://arxiv.org/pdf/1703.00551.pdf

image.png

image.png

image.png

image.png

### Gated Axial-Attention 方法在医学图像分割中的应用 #### 背景介绍 近年来,深度卷积神经网络 (CNNs) 已经成为医学图像分割的主要工具之一,在多个应用场景下表现出色。然而,由于其固有的局限性——难以捕捉长距离依赖关系,这限制了 CNN 的表现潜力[^3]。 #### Transformer 架构的优势 相比之下,Transformer 模型通过自注意力机制能够有效地处理序列数据间的远距离交互问题,从而提供更加丰富的特征表示能力。这种特性对于需要理解复杂空间模式的任务特别有用,比如医学影像分析[^4]。 #### MedT 中的 Gated Axial-Attention 设计理念 针对医学图像特有的挑战,即有限的数据量以及高分辨率需求等问题,研究人员提出了 Medical Transformer (MedT),它引入了一种新颖的设计——门控轴向注意力建模方式(Gated Axial-Attention)[^1]。该设计旨在解决标准 Transformers 需要大量标注样本才能良好工作的难题,并适应医疗领域内小型化且高质量的要求。 具体来说: - **门控机制**:为了增强模型的学习效率并减少过拟合风险,MedT 在传统的 Self-Attention 层之上加入了门控单元。这些门允许网络动态调整哪些部分应该被重点关注或忽略掉,进而提高了对输入信号的选择性和鲁棒性。 - **轴向注意力**:不同于常规全连接式的多头自我关注层,这里采用了分片策略来降低计算成本的同时保持足够的感受野覆盖范围。这意味着每个像素只与其所在行/列上的其他位置建立联系,而不是整个图片平面内的每一个点都相互作用。这种方法不仅简化了架构而且有助于更好地提取局部上下文信息。 ```python class GatedAxialAttention(nn.Module): def __init__(self, dim, num_heads=8, qkv_bias=False, attn_drop=0., proj_drop=0.): super().__init__() self.num_heads = num_heads head_dim = dim // num_heads self.scale = head_dim ** -0.5 # 定义查询、键和值线性变换矩阵 self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias) # 初始化门控参数 self.gate = nn.Parameter(torch.ones(num_heads)) def forward(self, x): B, H, W, C = x.shape qkv = self.qkv(x).reshape(B, H*W, 3, self.num_heads, C//self.num_heads).permute(2, 0, 3, 1, 4) q, k, v = qkv.unbind(0) # 计算注意力权重 attn = (q @ k.transpose(-2, -1)) * self.scale attn = F.softmax(attn, dim=-1) attn = self.attn_drop(attn) # 应用门控操作 gated_attn = torch.sigmoid(self.gate.view(1,-1,1,1)) * attn # 更新后的加权求和过程 x = (gated_attn @ v).transpose(1, 2).reshape(B,H,W,C) return x ``` 上述代码片段展示了如何实现一个简单的带有门控功能的轴向注意力模块。其中 `gate` 参数用来控制各个头部的重要性程度;而实际运算过程中则是通过对原始 Attention Map 施加 Sigmoid 函数得到的概率值来进行调节[^2]。 #### LoGo 策略概述 除了改进核心组件外,研究者们还开发了一套名为 “Learning from Global and Local Patches” 或简称 LoGo 的训练方案。此方法鼓励模型同时考虑整体布局与细节差异两方面因素,进一步提升了最终预测精度。具体做法是在每次迭代期间交替呈现整幅图像及其随机裁剪的小区域给定网络学习,以此促进更全面的理解能力和泛化性能。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值