如何高效地将现成的 2D 注意力模块应用于 3D CNN 医学影像任务 || 各向异性

原创已于 2025-01-09 09:37:58 修改

· 2.6k 阅读

45 ·

版权

文章标签：

#深度学习 #计算机视觉 #cnn #人工智能 #pytorch #python

于 2022-08-30 17:04:40 首次发布

医学图像处理专栏收录该内容

10 篇文章

订阅专栏

前言

在深度学习应用于医学影像的任务中，3D数据集的使用非常常见。然而，目前许多公开的注意力机制或模型优化技巧（tricks）主要针对2D数据，这使得直接应用这些技术到3D数据中面临一定的困难。
本文提供了一种思路：本质上是将3D医学影像展开为2D，插入注意力，然后再恢复成3D。由于医学影像具有各向异性的特点，这种插法通常将模型权重集中在横断面，从而更有利于模型性能的提升。

实现方法

GitHub 上提供了许多即插即用的注意力模块（例如：External-Attention-pytorch）。在本地下载后，核心问题在于如何将这些注意力模块有效地插入到现有的代码框架中。以下是具体的实现步骤：

Step 0：模拟输入数据并实例化模型

首先，通过 torch.randn 函数模拟输入数据。假设我们使用的3D数据的形状为 (batch_size=128, channel=1, x=24, y=24, z=20)，模型名称为 DiscriNet。

if __name__ == '__main__':
    import torch
    # 模拟一个3D图像输入
    input = torch.randn(128, 1, 24, 24, 20)
    net = DiscriNet()  # 假设已经定义了 DiscriNet 模型
    out = net(input)
    print(out.shape)

Step 1：确定注意力模块的插入位置

通常，注意力模块会插入到网络的 backbone（主干网络）中间层之后。为了确定具体位置，可以在模型的 forward 方法中打印每一层输入数据的尺寸，通过观察这些尺寸来决定插入点。

def forward(self, x):
    # 查看数据在每一层的尺寸
    print(x.size())  # e.g., torch.Size([128, 1, 20, 20, 16])
    x = self.net(x)  # 网络的主干部分
    print(x.size())  # e.g., torch.Size([128, 128, 2, 2, 2])
    
    if self.is_fc:  # 如果有全连接层
        x = x.view(-1, 128 * 2 * 2 * 2)
        x = self.final(x)
    else:
        x = self.final(x).squeeze(4).squeeze(3).squeeze(2)
    return x

Step 2：插入注意力模块

在确定插入位置后，可以直接实例化注意力模块，并将其嵌入到 forward 方法中。以下示例展示了如何在网络中集成一个自注意力模块（ScaledDotProductAttention）。

def forward(self, x):
    from SelfAttention import ScaledDotProductAttention  # 导入自注意力模块
    x = self.net(x)  # 主干网络处理
    print(x.size())  # e.g., torch.Size([128, 128, 4, 4, 4])

    # 调整张量形状以适配注意力机制
    b = x.permute(0, 2, 3, 4, 1).reshape(128, -1, 128)
    sa = ScaledDotProductAttention(d_model=128, d_k=128, d_v=128, h=8)  # 初始化模块
    output = sa(b, b, b)

    # 恢复张量的原始形状
    x = output.reshape(128, 4, 4, 4, 128).permute(0, 4, 1, 2, 3)
    x = x.contiguous().view(-1, 128 * 4 * 4 * 4)
    x = self.final(x)
    return x

通过 permute 和 reshape 函数，3D数据被调整为1D形状，以适配注意力机制。这种方法特别适合自注意力机制，因为其来源于自然语言处理领域，本质上是处理1D序列。

常见问题及解决方法

问题1：RuntimeError - 设备冲突

当模型或数据所在的设备不同（例如，一个在 CPU 上，另一个在 GPU 上）时，会出现如下错误：

RuntimeError: Expected all tensors to be on the same device, but found at least two devices.

解决方法：

确保所有张量和模型都在同一设备上。例如，将注意力模块和数据转移到 GPU 上：

device = torch.device('cuda:0')  # 指定 GPU
emsa = EMSA(d_model=128, d_k=128, d_v=128, h=8, H=8, W=8, ratio=2, apply_transform=True).to(device)

问题2：最后一个 Epoch 报错 - Batch Size 不足

如果最后一个 epoch 中的 batch size 小于预定值（如 128），可能会导致形状转换报错。

解决方法：

添加判断
在训练循环中，添加条件判断，确保当前 batch 的大小等于预定值：

for img_batch, label_batch in dataloader:
    if len(img_batch) == self.batch_size:
        # 训练代码

动态适配 batch size
在模型的 forward 方法中动态获取 batch size：

def forward(self, x):
    from SelfAttention import ScaledDotProductAttention
    x = self.net(x)
    x_batchsize = x.size()[0]  # 动态获取 batch size
    device = torch.device('cuda:0')

    b = x.permute(0, 2, 3, 4, 1).reshape(x_batchsize, -1, 128).to(device)
    sa = ScaledDotProductAttention(d_model=128, d_k=128, d_v=128, h=8).to(device)
    output = sa(b, b, b)

    x = output.reshape(x_batchsize, 4, 4, 4, 128).permute(0, 4, 1, 2, 3)
    x = x.contiguous().view(-1, 128 * 4 * 4 * 4)
    x = self.final(x)
    return x

后续优化

为了提高代码的可维护性和灵活性，可以将注意力模块封装为独立的类，并将参数动态化。例如：

x_batchsize = x.size()[0]  # 动态获取 batch size
x_channel = x.size()[1]    # 动态获取 channel 数量

这样做能够适应不同形状的输入数据，并增强代码的通用性。

我的一些观点以及相应GPT回馈，类似讨论的形式（更新于2025年1月）

1. “插注意力更多时候还是一种小技巧，本质上是模型学习不够，需要一个方式来引导它捕捉特征。”

你提到注意力是一种“技巧”，本质上是模型学习不够。这个说法有一定的道理，但注意力机制本身并不是简单的“补救”，它的设计目的是让模型更加高效地关注输入数据中的重要部分，而不仅仅是用来弥补学习不足。

补充： 注意力机制的根本目的是提高模型的表达能力，尤其在处理复杂数据（如自然语言和图像）时，它通过动态地分配权重，使得模型在每个决策时能够“关注”到最重要的部分。它不仅仅是一个“弥补”的手段，而是能帮助模型更好地捕捉长距离依赖关系，或者是帮助其聚焦在某些关键特征上。

2. “对于研究生来说，更多是一种水论文的方式，很多论文本质都是魔改注意力，只是现在不喜欢叫attention，喜欢叫aware之类的词。”

你提到注意力机制被“魔改”以及名称上的变化，这有一定的社会学背景。在学术界，确实有很多“新瓶装旧酒”的现象，比如将注意力机制的变种命名为不同的词汇，以看起来更具创新性。这个现象在学术圈确实存在，尤其是在很多论文没有深入解决核心问题时，容易通过增加一些复杂的技术来“充实”内容。

补充： 你提到的“魔改”注意力其实涉及很多不同的技术变种，像是自注意力（Self-attention）变种、注意力卷积、跨模态注意力等，它们确实是对原始注意力机制的不同调整和拓展。因此，虽然这些方法在命名上不同，但核心思想仍然是基于“如何让模型在处理信息时选择性地关注重要部分”。这些技术变种常常用于提升性能，但在一些场景下，它们的实质贡献可能并没有理论创新那么大，更多是工程上的调整。

3. “至于有没有用，大概率也是有用的，但是没有解决本质的问题。”

这个观点是正确的。注意力机制的变种通常能提升性能，但在一些情况下，它们并没有从根本上解决模型的能力瓶颈。例如，它们可能在提高模型的训练效率、加速收敛或处理特定任务时表现优越，但并未根本性地提高模型的泛化能力。

补充： 在实际应用中，注意力机制对某些任务（如机器翻译、图像描述生成）确实能够有效提升模型的性能，但这并不意味着它解决了所有问题。真正的挑战，像是“如何进一步提高模型的解释性，避免过拟合，以及如何处理长时间依赖问题”，这些都未必能通过单纯的注意力机制解决。

4. “就有点像模型集成一样，堆叠一些模型，自然能从增加一些性能。”

这个比喻挺形象的。模型集成（比如随机森林、Boosting等）通常通过将多个弱模型的预测结果结合起来，提高整体模型的性能。注意力机制的引入有些类似，通过对不同特征的“加权”来提高性能，但并没有根本改变模型的本质。

补充： 模型集成的优势确实在于能够通过多个模型的结合提高鲁棒性和准确性。注意力机制在某些任务中也起到了类似的作用，它让模型“自动”学习如何加权不同的输入部分，从而改善了模型对重要信息的处理能力。

5. “像nnunet的一些理论，其实是对注意力或者类似的trick做了批判的。”

nnU-Net提出的是一种“自动化”模型配置和优化的方法，重点是在无需复杂设计的情况下，根据数据的特点自适应地选择网络架构。而它对注意力机制的批判更多的是从“是否必要”和“是否有效”这两个角度进行的，认为在某些应用场景下，增加注意力机制可能并不会带来显著的提升，反而可能增加计算复杂度。

补充： nnU-Net的成功在于它充分简化了架构设计，避免了过度复杂的技术（比如不必要的注意力机制），并且通过大量的实验验证了在医疗影像领域，简单而有效的设计通常能取得最好的效果。这并不意味着注意力机制在所有任务中都无用，而是强调了在某些任务中，我们不必追求复杂的技巧，而应该更注重模型的可解释性和稳定性。