GCN-assisted attention-guided UNet for automated retinal OCT segmentation | 论文阅读记录

原创已于 2024-09-21 20:54:20 修改 · 1.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#论文阅读 #深度学习 #transformer

于 2024-09-19 17:21:52 首次发布

机器学习同时被 3 个专栏收录

24 篇文章

订阅专栏

10 篇文章

订阅专栏

4 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

文章来源

Expert Systems with Applications, 2024

文章背景与动机

在治疗neovascular age-related macular degeneration (nAMD)时，对视网膜的SD-OCT图像进行分割很重要。
在这里插入图片描述

但人工分割需要大量资源，因此自动分割势在必行。
为了提高自动分割的性能，解决UNet的学习过程会导致空间信息减少

前人工作的缺点：

丢失空间信息
上下文推理存在问题
空间信息推理

提出了graph convolution network (GCN)-assisted attention-guided UNet（结合了图卷积、Transformer与注意力引导的UNet）

研究内容

主要是学习网络的结构，关键是
在这里插入图片描述

GCN-assisted feature embedding

目的：提高模型的图像分割性能，让模型有更强的空间推理（spatial inference）能力
使用了GCN来代替CNN设计嵌入层，这样可以获得远距离的上下文信息。
在这里插入图片描述

其中：

$X$ ： $C$ x $H$ x $W$ ，输入数据
$X_r$ ： $C_r$ x $H W$ ，降维特征映射
$X_a$ ： $C_n$ x $H W$ ，投影矩阵
$X_d$ ： $C_n$ x $H$ x $W$ ，逆投影矩阵
$H$ （Node Feature）： $C_n$ x $C_r$ ， $X_r$ 与 $X_a$ 进行矩阵乘法所得
$F$ ： $C$ x $H$ x $W$ ，经过重塑与卷积变回原本大小

过程

X提供给两个1x1卷积层，并产生一个降维矩阵 $X_r$ 与一个投影矩阵（projection matrix） $X_a$ ，其中 $X_r$ 经过了Reshape， $X_a$ 经过了Reshape与转置。
然后 $X_r$ 与 $X_a$ 进行矩阵乘法，得到节点特征 $H$ ，并将它输入到GCN block中进行图卷积，输出结果为 $Z$ 。
将 $X$ 经过卷积层的结果重塑为逆投影矩阵（inverse projection matrix） $X_d$ ，然后将其与 $Z$ 进行矩阵乘法，目的是将数据映射回原本的隐空间。
最后对输出的特征矩阵进行重塑，让其尺寸变为原本的大小。

输入与输出的大小是一样，并没有改变原本的尺寸，只是增加了信息，增强模型的空间推理能力。

投影矩阵（projection matrix）

是一种用于将高维数据投影到低维空间的线性变换矩阵，通过矩阵乘法来进行降维。
在这里插入图片描述

逆矩阵乘法

是与投影矩阵相反的操作，它用于从低维空间还原到高维空间。逆投影矩阵可以将降维后的特征重新映射回其原始的高维空间，或至少是原始空间的一个近似版本。

图卷积

是一种处理图结构数据的深度学习模型，常用于非欧几里得空间的数据。

在传统的CNN中，卷积操作在规则的二维网格上进行（如图像像素矩阵），但图中的节点和边并不遵循规则的网格结构。
因此，GCN通过将卷积的思想扩展到图结构上，能够捕捉节点之间的局部关系，利用邻居节点的信息更新每个节点的特征表示。

图卷积的核心构成：

节点：图的基本单元，每个节点都有自己的特征。将图划分为一个个节点。
边：表示节点之间的连接或关系
卷积操作：通过邻居节点的特征聚合更新每个节点的特征表示，类似于CNN中卷积核从邻域聚合信息。

在这里插入图片描述

在这篇论文中被用于增强特征的空间推理能力，视网膜OCT图像中的像素点之间并不是规则的网格关系，因此将这些像素视为图的节点，通过GCN来捕捉邻域之间的关系，可以更好地建模视网膜结构的长距离依赖性

空间推理（spatial inference）

是指利用空间信息（例如对象的相对位置、形状、距离等）来进行推理和决策的过程，而且空间推理通过需要结合上下文信息。
在图像分割邻域，空间推理用于理解图像中像素或区域的相对位置及其所属的对象类别。

在这篇论文中，空间推理可以帮助获得更多的远距离上下文信息。

Transformer-based reasoning module

这里就是使用了多头注意力机制模块与位置编码
多头注意力机制
 位置编码
目的：增加注意力信息，让网络可以获得更加丰富的上下文信息，让网络可以捕获远距离像素之间的上下文关系。

在这里插入图片描述

long-range context （长距离上下文）

指的是在图像或其他数据中，利用较远位置的元素或信息对当前元素进行推断或决策。相对于仅依赖局部信息，长距离上下文强调远处区域的信息在当前区域的推理和理解过程中所起的作用。

在图像中，不同区域的关系可能存在长距离依赖。例如，在医学图像中，某些病灶区域的特征可能跨越较大的空间，无法仅通过局部特征进行识别。长距离上下文能帮助模型捕捉到整个结构，识别出相关性更高的远距离区域。

Multi-scale skip connection

原因：经过下采样会导致空间信息的损失，而该模型需要使用空间推理能力来分割图像，因此需要补充这些信息。

从网络结构图中，可以看出不仅解码器块与编码器中的对应层进行了拼接（绿色箭头），不同的解码器块之间也进行拼接（黑色箭头）。
在这里插入图片描述

解码器块之间拼接的运算公式：（看清楚括号）
第n个解码模块的输入由前n-1个解码模块的输出构成，其中第n-1个模块的输出需要经过双线性插值上采样后再与剩下的输出进行拼接以此得到第n个模块的输入。然后将其输入到第n个解码模块进行处理。
在这里插入图片描述

$F_n$ :第n个解码器模块的输出
$f_n()$ ：第n个解码器模块的卷积操作或特征处理操作，也就是对输入数据的处理函数。
$v_{n-1}(F_{n-1})$ ：对上一层的输出特征图( $F_{n-1}$ )进行双线性插值上采样操作，以此来匹配当前层所需的分辨率。
⊕：拼接操作，即将多个特征图沿特定维度进行拼接，拼接的目的是融合不同层次的特征，以利用它们所包含的多尺度信息。

损失函数

使用了Sorensen–Dice loss与二元交叉熵损失函数（Binary Cross-Entropy, BCE）。

在这里插入图片描述
其中：

$y_i$ ：第i个像素的真实值
$t$ :当前图像的像素个数
$p_i$ ：第i个像素的置信度

Sorensen–Dice loss

在这里插入图片描述

Binary Cross-Entropy

二元交叉熵损失函数通常用于二分类任务，也可扩展用于多分类任务.
在这里插入图片描述

实验

评价标准

Dice Score

判断两个数据集的相似度
在这里插入图片描述

Pixel Accuracy

PA=正确分类的像素个数/总像素个数
在这里插入图片描述

Sensitivity

敏感度、真阳性率、召回率
表示在所有真实为正类（例如为患病）的样本中，能被正确预测为正类的比例。

True Positives (TP)：真实为正类且模型预测为正类的样本数。
False Negatives (FN)：真实为正类但模型错误预测为负类的样本数。

敏感度高表示模型能够较好地识别出所有真实的正类样本，不会遗漏正类，但可以会误判

Specificity

真阴性率
表示在所有真实为负类（例如为无病）的样本中，能够正确预测为负类的比例

True Negatives (TN)：真实为负类且模型正确预测为负类的样本数。
False Positives (FP)：真实为负类但模型错误预测为正类的样本数。

特异度高 表示模型能够较好地识别出所有真实的负类样本，避免将健康的样本误诊为正类，不会误判，但可能会漏判。

性能测试

在nAMD进行性能对比测试
IRF、SRF、SHRM、PED是图像中的各个类别。

Dice Score

在这里插入图片描述

pixel accuracy

在这里插入图片描述

Sensitivity and Specificity

在这里插入图片描述

消融实验

实验对象：多尺度跳层连接与GCN
在这里插入图片描述

验证在其他数据集中的性能优势

在RETOUCH数据集中测试各个网络的性能，验证网络在其他数据集也有优势
在这里插入图片描述

可视化分割效果

粉色框：被漏分类的
蓝色框：分类错误的
在这里插入图片描述

缺陷

仍会出现分类错误的情况
在这里插入图片描述

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.9

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。