医学图像描述的可解释性
1 数据集特点
医学图像描述任务中所使用的数据集具有一定的特点。每个图像描述的最大句子数为 5 句,预处理前每个描述的最大长度为 47 个单词,预处理后为 33 个单词。该数据集极具挑战性,它包含来自不同模态(如 X 光、超声波、CT 扫描、MRI 等)、不同身体部位(如大脑、手、膝盖等)的图像,并且每张图像的采集条件(如光照、对比度、大小、比例等)也各不相同。这使得视觉特征的提取变得困难,尤其是在训练样本较少的情况下。
2 实验设置
为了验证图像描述模型的有效性,采用了以下实验步骤:
1. 计算 BLEU 分数 :在验证集上计算 BLEU 分数。具体来说,对于每个图像,计算原始描述和新生成描述之间的 BLEU 分数,然后对验证图像的分数进行平均,得到所提出模型的分数。
2. 可视化视觉特征 :使用预训练的 ResNet50 模型从两张不同的图像中提取不同层(第 0 层、第 20 层和第 40 层)的视觉特征,并进行可视化。
3. 可视化注意力图 :可视化突出图像最相关区域的注意力图,以及模型生成的单词。将原始描述与生成的描述进行比较,将两个描述中都存在的单词用红色显示。
4. 展示错误案例 :展示模型无法预测描述的示例,即只生成了原始描述中的部分单词或完全没有生成正确单词的情况,并展示这些错误结果的注意力图,以解释模型为何未能生成正确的描述。
graph LR
A[计算
超级会员免费看
订阅专栏 解锁全文
1306

被折叠的 条评论
为什么被折叠?



