利用文本提示改进胸部X光图像感染区域分割
1. 研究背景与意义
在医学领域,放射学对于一些肺部传染病的诊断起着至关重要的作用,例如2019年末爆发的COVID - 19肺炎。随着深度学习的发展,深度神经网络越来越多地用于处理放射图像以辅助诊断,如疾病分类、病变检测和分割等。通过深度神经网络对放射图像的快速处理,能够立即获得一些诊断结果,这对于量化疾病的严重程度及其进展非常重要,同时也能让医生以“患者特定”的方式预测风险和预后。
然而,目前大多数生物医学分割方法都是基于U - Net改进的图像单模态方法,其性能受到训练数据的限制,这也是医学图像领域面临的一个难题。近年来,多模态学习兴起,出现了一些专注于视觉 - 语言预训练/处理并应用于局部任务的方法。例如,Li等人提出的语言驱动的医学图像分割方法LViT,使用混合CNN - Transformer结构融合文本和图像特征,但LViT采用早期融合方法,文本中的信息未能得到很好的表达。
2. 主要贡献
为了解决上述问题,研究人员提出了一种多模态分割方法,主要贡献如下:
- 提出了一种语言驱动的分割方法,用于从肺部X光图像中分割感染区域,源代码可在https://github.com/Junelin2333/LanGuideMedSeg - MICCAI2023获取。
- 设计的GuideDecoder可以将文本提示的语义信息自适应地传播到像素级视觉特征中,促进两种模态之间的一致性。
- 清理了QaTa - COV19文本注释中包含的错误,并联系LViT的作者发布了数据集的新版本。
- 扩展研究揭示了文本提示中信息粒度对分割性能的影响,并证明了多模态方法在所需训练数据大小方面
超级会员免费看
订阅专栏 解锁全文
1381

被折叠的 条评论
为什么被折叠?



