本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。
原文链接:https://mp.weixin.qq.com/s/cn3kdO9NWvkUpt1aWVOW3w

精简阅读版本
本文主要解决了什么问题
-
1. 医学图像中异常检测面临的挑战,特别是特征表示差异以及解剖结构与异常之间的复杂关系
-
2. 乳腺X光检查中致密乳腺组织会掩盖病灶,使放射学解释变得复杂的问题
-
3. 现有检测方法难以学习有效的类别特定特征,限制了它们在不同任务和成像模态中的应用
本文的核心创新是什么
-
1. 提出了Exemplar Med-DETR(EM-DETR),一种新型多模态对比检测器,能够实现基于特征的检测
-
2. 引入了示例生成模块,提取特定类别的代表性嵌入来指导检测,这些"示例"特征指导检测Head基于"匹配"的类特征定位病灶
-
3. 通过特定领域的背景选择增强了对比学习流程,采用迭代训练策略(分为三个阶段),在异常检测方面取得显著提升
-
4. 设计了两个额外的损失函数:余弦相似度对比特征损失和L2特征损失,提高模型鲁棒性和稳定性
结果相较于以前的方法有哪些提升
-
1. 在越南致密乳腺X光图像上,对肿块检测实现了0.7的mAP,对钙化灶检测实现了0.55的mAP,分别提升了16个百分点
-
2. 对100份来自中国外分布队列的乳腺X光图像进行放射科医生支持的评估显示,病灶检测性能提升了两倍
-
3. 对于胸部X光片,对肿块检测实现了0.25的mAP,提升了4个百分点;对于血管造影,对狭窄检测实现了0.37的mAP,提升了7个百分点
局限性总结
-
1. 当钙化与肿块共存并被标注为同一个边界框时,模型检测结果受到影响,预测结果与真实标签不完全匹配
-
2. 在血管造影数据集中,由于标注噪声(部分图像中主要血管树外的狭窄区域未标注)导致改进效果未达预期
-
3. 在较大的真实标注区域内预测到多个较小的假设框,导致精确度分数降低
深入阅读版本
导读
在医学图像中检测异常情况面临着独特的挑战,这主要源于特征表示的差异以及解剖结构与异常之间的复杂关系。在乳腺X光检查中,这一问题尤为明显,因为致密的乳腺组织会掩盖病灶,使放射学解释变得复杂。尽管现有检测方法利用了解剖和语义上下文,但它们仍难以学习有效的类别特定特征,从而限制了它们在不同任务和成像模态中的应用。在这项工作中,作者引入了 Exemplar Med-DETR,这是一种新型多模态对比检测器,能够实现基于特征的检测。它采用交叉注意力机制,利用内在推导的直观类别特定示例特征,并通过迭代策略进行训练。作者在四个公开数据集的三个不同成像模态上实现了最先进的性能。在越南致密乳腺X光图像上,作者对肿块检测实现了0.7的mAP,对钙化灶检测实现了0.55的mAP,分别提升了16个百分点。此外,对100份来自中国外分布队列的乳腺X光图像进行放射科医生
支持的评估显示,病灶检测性能提升了两倍。对于胸部X光片和血管造影,作者对肿块检测实现了0.25的mAP,对狭窄检测实现了0.37的mAP,分别提升了4个和7个百分点。这些结果突显了Med-DETR在推进医学图像鲁棒和泛化检测系统方面的潜力。
1 引言
随着先进深度学习算法的出现,计算机辅助诊断工具在过去十年中取得了显著进步[1]。值得注意的是,在利用钼靶进行乳腺癌筛查的背景下,人工智能(AI)支持的筛查和诊断系统取得了重大进展[7,8,23]。然而,研究发现钼靶筛查的敏感性随着乳腺密度的增加而降低[26],特别是在越南和中国等地区。鉴于这些地区女性乳腺高密度组织的患病率增加,开发解决这一问题的算法至关重要。挑战不仅源于不同乳腺密度之间的数据不平衡[21],导致算法偏差,还因为致密乳腺组织会掩盖病灶[26,22],使检测更加复杂。
自然图像领域中的目标检测方法,如Faster-RCNN [25]、RetinaNet [12]、DETR [32]和YOLO [27,24],在多种医学图像领域中取得了令人印象深刻的结果。Chen等人 [8]近期的研究中,实现了一个基于EfficientNet的多模态图像文本网络,并结合RetinaNet检测器 [12],在乳腺X光片 [21]的病变检测中达到了最先进的(SOTA)精度。类似地,Rangarajan等人 [23]研究了密集乳腺人群中的病变检测,而Marimuthu等人 [17]则研究了利用深度学习模型结合图像和解剖信息进行病变检测。尽管当前研究通过使用多模态或补充的上下文(空间和解剖)信息取得了令人印象深刻的结果,但仍存在进一步改进的空间。当前方法,如Grounding DINO (GD) [4,14],通过跨模态注意力和对比学习利用视觉和语言信息,实现了基于文本 Prompt 的开集检测,从而在MS-COCO [13]和PASCAL-VOC [9]数据集上达到了SOTA检测性能。
基于多模态数据融合的概念,作者提出了Exemplar Med-DETR,这是一个显著提升密集乳腺钼靶图像病灶检测性能的新型目标检测框架。Med-DETR学习一个特定类别的代表性特征,该特征与视觉和文本输入一起被整合到检测流程中。这些"示例"特征指导检测Head基于"匹配"的类特征,有效地定位乳腺钼靶图像中的病灶。Exemplar Med-DETR(EM-DETR)的有效性依赖于类之间的对比学习方案。这带来了两个主要挑战:区分解剖特征与异常,以及区分紧密相关的类特征。其次,与自然图像中物体类别可以出现在任何位置不同,医学图像中的解剖结构具有固有的对齐性。利用这些见解,EM-DETR引入了一种迭代训练方案,该方案分阶段训练网络,在正常解剖结构和病灶区域之间进行对比。在本研究中,作者在多个公共数据集上对Med-DETR进行了全面评估,并通过一系列消融研究评估了引入模块的影响。
主要贡献:1)作者引入了EM-DETR,它能够在医学图像中进行基于特征的检测。这是通过一个范例生成模块实现的,该模块提取特定类别的代表性嵌入来指导检测。2)作者通过特定领域的背景选择增强了对比学习流程[14],采用迭代训练策略,在异常检测方面取得了显著提升。3)作者在乳腺X光检查[21]中展示了在病灶检测方面的显著提升,并在公开的中文乳腺X光数据集[6]上进行了进一步评估,与执业放射科医师进行了比较。为了评估泛化能力,作者将该方法扩展到胸部X光片(CXRs)[20]和血管造影狭窄[19]数据集的病灶检测。
2 方法
Med-DETR基于多模态DETR[3,14],通过图像和文本嵌入之间的交叉注意力机制实现“语言引导 Query 选择”。作者提出学习特定类别的示例嵌入或特征,这些嵌入或特征还可以用于指导检测。这些示例是根据与各自类别空间位置相对应的视觉特征计算得出的。关注这些特征使检测Head能够执行基于原型的搜索,从而便于扩展到新类别。图1概述了EM-DETR,包括示例生成和额外的损失。此外,EM-DETR采用迭代训练策略。



迭代训练策略:尽管训练好的解码器能够有效学习这些类别的特征,但在区分正常解剖结构方面仍面临挑战。因此,作者提出了一种多阶段迭代学习方法。第一阶段使用所有标注来训练所提出的模型,而第二阶段通过逐类的背景与前景检测任务来优化权重。背景标注根据真实标注(gt)的平均面积从相似的解剖区域中随机选择。在额外的第三阶段,作者将先前检测到的假阳性(FP)区域 Token 为背景类别,以进一步优化网络。
3 实验设置
数据描述:作者利用VinDR-Mammo数据集[21]进行包含肿块和钙化的病灶检测任务。该数据集包含16000张训练图像和4000张全分辨率DICOM测试图像,来自越南患者,并带有边界框标注。数据集中密集乳腺组织比例较高(约90%[21]),这对放射科医生和AI模型进行肿块检测都构成了挑战。为了进行公平的比较,该数据集是根据当前的SOTA MammoCLIP[8]创建的。此外,作者利用中国乳腺X光图像数据集CMMD[6]中的100张图像来评估病灶检测任务。由于该数据集缺乏边界框标注,一位具有执业资格的放射科医生识别了病灶区域的中心作为真实标签。所有CMMD图像都包含病灶,这影响了标注。所有乳腺X光图像都根据[22]进行了预处理。作者将验证研究扩展到其他领域,以评估Med-DETR的有效性和泛化能力。VinDR-CXR[20]是一个包含15000张训练图像和3000张全分辨率后前位(PA)DICOM图像的数据集,带有边界框标注。作者评估与结节和肿块检测的相似任务,测试集的创建方式与[30]相同。为了使用不同的目标评估模型,作者研究了利用ARCADE[19]血管造影数据集进行狭窄检测。该数据集[19]包含1000张训练图像和300张测试图像。该数据集存在标注噪声,部分图像中主要血管树外的狭窄区域未标注,从而最小化了观察到的收益。这些是公开数据集,作者确保所有实验中训练集和测试集之间没有患者重叠。
实验细节:实验在单个节点上运行,配备四块40 GB A100 GPU,使用学习率为0.0008的线性调度器,在MMDetection [5]框架下进行。记录了5次运行的平均结果。图像和文本主干网络被冻结。被设计为一个简单的2头、4层Transformer。移动平均是在个样本上计算的。作者首先使用所有可用标注(阶段I)训练模型,随后通过单独关注每个类别来微调模型(阶段II)。作者利用从正常图像中随机选择的8个背景区域,以确保覆盖整个图像。在最终阶段,作者将模型在将前8个错误分类的区域(FP)设为背景的情况下进一步微调(阶段III)。报告的是50% IoU下的平均精度均值(),召回值平均在50%到95%之间。
4 结果与讨论

Med-DETR在VinDR-Mammo数据集[21]上的肿块和钙化检测均取得了SOTA结果,如表1所示。与之前的SOTA相比,肿块检测的显著提升了12%。如图2(a)所示,即使在极其致密的乳腺组织中,预测结果也与真实标签gt紧密对齐。同样,钙化检测结果相对于SOTA提升了20%。尽管取得了显著进步,作者仍调查了较低的情况。作者发现钙化通常与肿块共存,并被标注为同一个边界框。Med-DETR依赖于特征匹配,而这些标注影响了作者的结果,导致预测结果与真实标签gt不完全匹配,如图2(b)所示。在第一张钙化图像中,模型准确预测了钙化区域,而未包含较大的肿块。然而,在第二张图像中,由于中特征提取的不一致性,模型将肿块包含在预测区域内。为了评估肿块检测的分布外(OOD)性能,作者使用先前在VinDR-Mammo[21]肿块图像上训练的模型,并在CMMD[6]上进行测试。由于缺乏精确的边界框标注,并基于实际临床相关性,作者考虑将真阳性(TP)率作为评估指标。如果真实标签gt中心位于高于0.1阈值的最高分数预测框内,则检测被视为TP。根据此标准,与 Baseline 相比,作者实现了绝对提升35%,如表1所示。在图4中,作者观察到 Baseline 与EM-DETR之间三个肿块检测实例,以及用黄色 Token 的真实标签gt。对于此测试,作者使用存储在内存库中的示例,这些示例是在VinDR-Mammo数据集上训练时为肿块检测计算的。作者观察到EMDETR能有效识别OOD致密乳腺图像中的异常区域。显著的改进源于模型推理肿块数据集无关的显著特征的能力。

由于Med-DETR能够有效区分正常和病理解剖结构,作者还评估了在胸部X光(CXR)数据集[20]上的结节和肿块检测。作者获得了4%的增益,从而实现了新的SOTA性能,达到0.25 ,如表2所示。图2(c)展示了结节检测的示例。

Med-DETR在狭窄检测任务中的泛化能力进一步得到验证[19],该任务与先前任务不同,从而在指标上提升了7%,达到了当前最佳水平(SOTA)。狭窄检测的结果也展示在表2中。解码器的学习方法依赖于对比提出的假设框,而由于狭窄在次级血管中未标注导致的标签噪声,使得改进效果未达预期。此外,在较大的真实标注(groundtruthgt)区域内预测到多个跟随受影响血管结构的较小假设框,也导致了较低的精确度分数。图2(d)展示了多个预测的狭窄区域,这些区域位于真实标注(groundtruthgt)内,以及一个未标注真实标注(groundtruthgt)的示例。
消融实验:图3(a)展示了在肿块和钙化与它们背景的情况下,示例特征的t-SNE图。示例包括
定性示例。“基于特征”的搜索EM-DETR可靠地定位了模糊的质量区域。
它们被很好地分离,从而确保解码器搜索判别性类别特征。图3(b)展示了EM-DETR的不同模块对肿块和钙化在模型配置和训练阶段中的影响。从基准GD开始,添加了示例生成模块,同时不添加和添加位置编码(§2中的)以及引入的损失项(§2中的)。为了提供额外的见解,通过训练的不同阶段(§2)展示了性能提升。EM-DETR中各种模块的逐步集成导致肿块检测的持续改进,这从不断增加的中可以看出。另一方面,作者观察到随着的引入,钙化结果最初会下降,但在Stage II训练后有所改善。这归因于groundtruthgt在同时包含这两种发现(肿块和钙化)的图像中包含了相同的标注。
5 结论
在本研究中,作者证明了EM-DETR在各种具有挑战性的任务中能够高效地执行检测。它通过“特征匹配”和领域自适应训练实现了SOTA性能。该方法确保解码器能够基于“示例”特征进行搜索,从而实现一个强大的阶段I模型,该模型可以轻松扩展到新的类别。未来的工作将研究EM-DETR在医学检测基础模型和少样本检测中的应用,以降低标注成本。
参考
[1]. Exemplar Med-DETR: Toward Generalized and Robust Lesion Detection in Mammogram Images. and beyond
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。
3万+

被折叠的 条评论
为什么被折叠?



