6.H-DenseFormer: An Efficient Hybrid Densely Connected Transformer for Multimodal Tumor Segmentation
Shi J, Kan H, Ruan S, et al. H-DenseFormer: An Efficient Hybrid Densely Connected Transformer for Multimodal Tumor Segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 692-702.
本文提出了一种名为H-DenseFormer的混合密集连接网络,用于多模态医学图像的肿瘤分割。该网络结合了卷积神经网络(CNN)的表示能力和Transformer结构,通过集成一个基于Transformer的多路径并行嵌入(MPE)模块,可以以任意数量的模态作为输入来从多个模态中提取融合特征。这解决了现有方法在表示能力、特定模态数量和高计算复杂性方面的限制。本文还提出了一种轻量级的多模态融合特征提取方法,通过设计Densely Connected Transformer(DCT)块替代标准Transformer块,降低计算复杂度。在HECK-TOR21和PI-CAI22两个公开多模态数据集上进行了实验,结果显示该方法在保持性能的同时降低了计算复杂度。

MPE:在MPE模块中,每个模态都有一条独立的编码路径,包括一个patch embedding模块、一系列堆叠的Densely Connected Transformer(DCT)模块和一个residual连接。这些独立的编码路径在多模态特征提取阶段并行运行。MPE模块通过这种方式从不同模态中提取特征,然后将这些特征进行融合,以获得更全面的多模态表示。
DCT:Densely Connected Transformer(DCT)在标准Transformer结构的基础上,将多个Transformer编码器(或解码器)的输出(或输入)与每个Transformer层紧密连接起来。这使得模型能够充分利用更多的上下文信息,增强了模型的表示能力。
损失函数:为了缓解像素不平衡问题,采用Focal loss和Dice loss的组合损耗作为优化目标,定义如下:
ζ F D = 1 − 2 ∑ t = 1 N p t q t ∑ t = 1 N p t + q t + 1 N ∑ t = 1 N − ( 1 − p t ) γ log ( p t ) \zeta_{F D}=1-\frac{2 \sum_{t=1}^{N} p_{t} q_{t}}{\sum_{t=1}^{N} p_{t}+q_{t}}+\frac{1}{N} \sum_{t=1}^{N}-\left(1-p_{t}\right)^{\gamma} \log \left(p_{t}\right) ζFD=1−∑

文章介绍了H-DenseFormer在肿瘤分割中的应用,结合CNN和Transformer的优势;另外两篇文章探讨了多模态学习在视觉预测和病理诊断中的新方法,如使用掩码自注意力和知识蒸馏来处理缺失模态和提高准确性。
最低0.47元/天 解锁文章
1407





