Resvit: Residual vision transformers for multi-modal medical image synthesis(TMI2022) Paper
CNN 被设计为使用紧凑型滤波器执行局部处理,这种归纳偏差(inductive bias)会影响对上下文特征的学习。ResViT的生成器采用了由新型聚合残差( aggregated residual transformer–ART)块组成的中心瓶颈,该块可以协同组合 residual convolutional 和transformer模块。ART 块中的残差连接促进了捕获表征的多样性,而通道压缩模块( channel compression module)提取了与任务相关的信息。在 ART 块之间引入了权重共享策略以减轻计算负担。引入了统一的实现以避免需要为不同的源-目标模态配置重建单独的综合模型。
ResViT结合了视觉transformer对全局环境的敏感性、CNN的局部化能力以及对抗式学习的现实性,并且鉴别器使用了PatchGan
编码器-信息瓶颈-解码器路径


文章探讨了Transformer在医疗图像处理领域的应用,如ResViT通过结合CNN和Transformer的优势进行图像合成,TransUNet利用Transformer的全局视野和U-Net的细节保留,以及Swin系列Transformer在医学图像分割中的贡献。MT-Net则提出了边缘感知预训练,提升跨模态图像合成效果。
最低0.47元/天 解锁文章
376






