可解释的深度学习人工智能在医学图像字幕生成中的应用
1. 相关工作
1.1 医学图像字幕生成
在医学领域,图像字幕生成是指生成医学报告以突出图像中观察到的最重要的临床发现。目前主要有以下四类自动医学图像字幕生成方法:
- 基于模板的方法 :依赖遵循语法规则的模板字幕来为未见图像生成字幕。这种方法通常简单,能生成语法正确的描述,但使用硬编码的视觉概念,导致输出灵活性低、多样性少。例如,Harzig 等人(2019)提出使用深度卷积神经网络(CNN)通过对图像进行分类、使用类激活图识别重要区域,并从模板库中生成描述性报告,以检测胃肠道检查中的疾病。
- 基于检索的模型 :利用图像之间的相似性提取一组字幕,假设相似的图像会产生相似的字幕。然后,它们要么选择最相似的字幕,要么根据一些规则组合多个相似的字幕来生成新的字幕。例如,Kisilev 等人(2015)提出使用病变边界检测和将图像测量值映射到语义描述符来生成乳腺放射学报告,该方案基于支持向量机(SVM)和结构化学习方法。
- 生成模型 :采用深度学习网络,从图像的视觉和语义信息中学习生成字幕。包括编码器 - 解码器模型、深度全连接模型和合并模型。一般来说,这些技术将特征映射到字幕,或者用单词描述特征,并最终使用语言模型将它们组合起来生成字幕。例如,合并模型使用 CNN 模型提取视觉特征,使用循环神经网络(RNN)模型学习文本特征,然后将两组特征合并以生成合适的字幕;编码器 - 解码器模型使用 CNN 网络提取特征,并将其输入编码器以解码这些特征并生成字幕。为了关注特定的感兴趣区域,研究人员会引入注意力机制。
超级会员免费看
订阅专栏 解锁全文
2062

被折叠的 条评论
为什么被折叠?



