Swin-Unet:纯Transformer的医学分割

最新推荐文章于 2024-04-15 14:05:23 发布

柯西的笔

最新推荐文章于 2024-04-15 14:05:23 发布

阅读量3.1k

点赞数 2

分类专栏：人工智能文章标签：计算机视觉卷积神经网络 android django cv

本文链接：https://blog.youkuaiyun.com/weixin_41202834/article/details/121173755

版权

人工智能专栏收录该内容

6 篇文章

订阅专栏

整体架构：

由上图可以看出Swin-Unet主要由Swin Transformer Block,Patch Merging,Patch Expanding组成，其中左半部份就是Swin Transformer: Hierarchical Vision Transformer using Shifted Windows该篇论文的部分。Swin Transformer我在另一篇文章中有详细的解析与源码解读（Swin Transformer解读

Patch Expanding

该模块的作用是进行上采样，用于扩大分辨率，调整通道数。（其中最后一次上采样Patch Expanding分辨率扩大了4倍）。

class PatchExpand(nn.Module):  
    def __init__(self, input_resolution, dim, dim_scale=2, norm_layer=nn.LayerNorm):
        super().__init__()
        self.input_resolution = input_resolution
        self.dim = dim
        self.expand = nn.Linear(dim, 2*dim, bias=False) if dim_scale==2 else nn.Identity()
        self.norm = norm_layer(dim // dim_scale)


    def forward(self, x):
        """
        x: B, H*W, c
        """
        H, W = self.input_resolution
        x = self.expand(x)    #[B,H*W,2c]
        B, L, C = x.shape
        assert L == H * W, "input feature has wrong size"


        x = x.view(B, H, W, C)
        x = rearrange(x, 'b h w (p1 p2 c)-> b (h p1) (w p2) c', p1=2, p2=2, c=C//4)  #[B,2H,2W,C//4]
        x = x.view(B,-1,C//4)        #[B,2H*2W,C//4]
        x= self.norm(x)
        return x

该操作实质上就是Patch Merging的逆操作，示意图如下所示。