学术分享：基于 ARCADE 数据集评估 Grounding DINO、YOLO 和 DINO 在血管狭窄检测中的效果

原创已于 2025-04-11 15:23:49 修改 · 2.2k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#YOLO #目标检测 #人工智能 #计算机视觉 #视觉检测 #语言模型 #ai

于 2025-04-11 15:22:26 首次发布

一、引言

冠状动脉疾病（CAD）作为全球主要死亡原因之一，其早期准确检测对有效治疗至关重要。X 射线冠状动脉造影（XCA）虽然是诊断 CAD 的金标准，但这些图像的人工解读不仅耗时，还易受观察者间差异的影响。本研究评估了三种先进的目标检测模型——Grounding DINO、YOLO 和 DINO —— 在 ARCADE 数据集上对冠状动脉造影图像中狭窄（血管变窄）的自动检测性能。

图1 X 射线冠状动脉造影图像，紫色高亮区域显示狭窄。狭窄表示血管变窄，限制了流向心肌的血流。

二、冠状动脉疾病与狭窄的理解

冠状动脉疾病主要发生在供应心脏的主要血管受损或者发生疾病时，通常由动脉中斑块堆积引起。这会导致血管变窄（狭窄），从而限制流向心肌的血流。若不及时治疗，可能会导致心绞痛（胸痛）、心脏病发作，甚至死亡。

CAD的传统诊断方法包括：

（1）临床评估：评估症状和风险因素；

（2）非侵入性测试：包括心电图、压力测试和CT扫描；

（3）X 射线冠状动脉造影（XCA）：将造影剂注入冠状动脉并捕获 X 射线图像的确定性诊断程序。

放射科医师需要手动解读这些血管造影图像以识别狭窄区域，这一过程不仅耗时且解读结果可能存在差异。通过深度学习自动化这一过程，可以显著提高诊断效率和一致性。

三、ARCADE 数据集

本研究使用 ARCADE 数据集（冠状动脉疾病事件自动化注册分析），这是一个专为自动 CAD 诊断设计的公开基准数据集。该数据集包含由专家标记的 X 射线血管造影图像，附有狭窄检测注释，为评估不同检测算法提供了标准化资源。

ARCADE数据集的主要特点包括：

（1）包含专家标记的狭窄区域；

（2）代表不同程度狭窄的多样化患者案例；

（3）冠状动脉的多角度视图；

（4）用于对比不同算法的标准化格式。

四、目标检测模型

研究评估了三种不同的目标检测架构，各代表计算机视觉的不同方法：

1. YOLO （You Only Look Once）

YOLO 是一种基于 CNN 的目标检测系统，以其实时推理能力著称。它将图像分成网格，在单次处理中直接从完整图像预测边界框和类别概率。

图2 YOLO 架构展示了特征主干网络、特征金字塔和预测头部组件。

YOLO 的主要特点：

（1）拥有在一次处理中处理整个图像的单阶段检测器；

（2）用于多尺度特征提取的特征金字塔，能同时注意到大小不同的狭窄区域；

（3）高处理速度，就像快速诊断，适用于需要立即结果的情况；

（4）在处理小物体或复杂医学影像数据时表现不佳，可能会错过非常细小的狭窄区域。

2. DINO

DINO 是一种基于 Transformer 的模型，利用自注意力机制增强特征表示。该模型基于DETR（DEtection TRansformer）架构，改进了训练收敛性和性能。

图3 DINO 架构，其中展示了具有多尺度特征处理的编码器-解码器 Transformer 结构。

DINO 的主要特点：

（1）无需非极大值抑制的端到端目标检测，便于直接给出诊断而不需要多个处理步骤；

（2）多尺度特征处理，同时关注患者的主要症状和细微症状；

（3）增强的查询选择机制，用于更好的特征表示，能够更精确地定位狭窄位置；

（4）在复杂检测任务上表现强劲，但可能需要更高的计算资源。

3. Grounding DINO

Grounding DINO 将 DINO 架构与基础预训练相结合，用于开放集目标检测。它结合了视觉和文本特征，实现更强大的目标检测。

图4 Grounding DINO 架构，其中展示了文本和图像特征之间的跨模态处理。

Grounding DINO 的主要特点：

（1）文本和图像特征之间的跨模态学习；

（2）用于改进表示的特征增强层，就像使用放大镜增强观察细节；

（3）语言引导的查询选择，能根据具体的语言描述寻找对应区域，如“查找50%以上的狭窄区域”；

（4）最小监督检测能力，即使只有有限的标记数据也能学习得很好。

五、研究方法

本研究使用了 MMDetection 框架（一个开源目标检测工具箱）实现了所有三种目标检测模型。评估遵循以下关键步骤：

1. 数据预处理

注释文件被调整为与 ARCADE 数据集格式一致，并过滤了冗余注释以确保标签一致性。

2. 模型配置

每个模型都在 MMDetection 框架中配置了适当的超参数（hyperparameter）：

（1）YOLO：使用带有特征金字塔网络的 ResNet 主干；

（2）DINO：使用 Swin Transformer 主干和 transformer 编码器-解码器结构；

（3）Grounding DINO：配置了视觉-语言融合和交叉注意力机制。

3. 训练过程

模型在 ARCADE 数据集上使用标准优化技术进行训练：

（1）学习率调度；

（2）医学图像数据增强；

（3）适用于目标检测的损失函数（ IoU 损失，分类损失）。

4. 评估指标

本研究使用标准 COCO 评估指标来评估不同模型的检测性能：

（1）IoU（交并比）：测量预测框和真实框之间的重叠；

（2）平均精度（AP）：测量不同 IoU 阈值下的检测准确性；

（3）平均召回率（AR）：测量找到所有狭窄区域的能力。

六、结果与性能比较

研究的对比评估揭示了三种模型之间不同的性能模式：

1. 定量结果

（1）基于 Transformer 的模型（DINO 和 Grounding DINO）在大多数 IoU 阈值下通常比 YOLO 实现更高的平均精度（mAP）。

（2）Grounding DINO 在 IoU = 0.50 时获得最高 mAP，表明对于中等重叠检测具有强大性能。

（3）DINO 在 IoU 阈值从 0.50 到 0.95 的 mAP 中优于其他模型，展示了在不同重叠要求下的卓越精度。

（4）YOLO 获得了有竞争力的 mAP50 结果，显示出该类模型对中等重叠目标的精度平衡性能。

实验的性能指标反映了不同架构之间对精度和召回率的权衡：

（1）DINO：精度最高但召回率较低；

（2）Grounding DINO：精度和召回率之间保持了良好的平衡；

（3）YOLO：召回率良好，而精度中等。

2. 检测可视化比较

以下图像展示了每个模型在相同冠状动脉造影图像上的表现：

图5 DINO 的检测结果，结果更少但更精确。

图6 Grounding DINO 的检测显示具有明确标签的高置信度狭窄检测。

图7 YOLO 检测显示多个具有置信度分数的检测区域。

3. 定性分析

除定量指标外，对检测结果的定性分析揭示了每个模型在狭窄检测方法上的重要差异：

3.1 DINO 检测模式

DINO 总体上检测结果较少，偶尔会错过相关的狭窄区域，但其检测到的区域通常都是准确的。这表明该模型学习了更严格的狭窄判断标准。例如，在某些测试案例中，DINO 以高置信度检测到单个狭窄区域，同时错过了更微妙的次要区域。这种模式在图 5 和图 8 中很明显，模型识别了主要狭窄区域但可能忽略了其他狭窄区域。

图8 DINO检测显示其倾向于更少、更精确的检测。

3.2 Grounding DINO 检测模式

Grounding DINO 识别出了更多的区域，但有时由于过度检测导致预测混乱。该模型似乎利用其跨模态理解来检测更广泛的狭窄表现。如图 6 和图 9 所示，Grounding DINO 通常以不同置信度分数检测多个狭窄区域。虽然这增加了捕获所有狭窄区域的可能性，但同时也提升了假阳性的可能性。

图9 Grounding DINO 检测显示多个具有置信度分数的检测区域。

3.3 YOLO 检测模式

YOLO 通过有效捕获解剖结构同时保持相对高的置信度分数提供了合理的权衡。与基于 transformer 的模型相比，它对小型狭窄区域的检测更好。

如图 7 和图 10 所示，YOLO 的检测模式通常包括具有不同置信度分数的多个区域。这种方法为临床应用提供了精度与召回率之间的合理平衡。

图10 YOLO 检测显示多个具有置信度分数的检测区域。

七、局限性与挑战

通过本次研究，我们发现了几个影响模型性能的通用局限：

1. 数据相关挑战

（1）与通用目标检测数据集相比，ARCADE 数据集规模有限；

（2）正常病例和狭窄病例之间的类别不平衡；

（3）图像质量和对比度水平的变化。

2. 模型特定局限性

（1）YOLO：难以处理非常小的狭窄区域和低对比度区域；

（2）DINO：计算密集且需要更长的训练时间；

（3）Grounding DINO：在某些复杂情况下倾向于过度检测。

3. 临床整合挑战

（1）需要更高的精度以避免临床环境中的假阳性；

（2）可解释性要求：医生需要理解AI为何做出某个判断；

（3）患者间冠状动脉解剖结构的差异。

八、未来研究方向

基于研究发现，我们确定了几个颇有前景的研究方向：

1. 后处理技术以提高检测准确性

（1）结合不同模型输出的集成方法，例如使用 YOLO 的快速检测能力初步筛选，然后用 DINO 的精确定位能力进行细化。

（2）优化边界框以实现更好的定位。

2. 模型改进

（1）替代模型配置和训练策略；

（2）使用医学影像领域特定的增强技术；

（3）通过半监督学习方法来利用未标记数据。

3. 混合方法

（1）集成 CNN 和 transformer 架构以获得平衡性能；

（2）整合解剖先验知识以提高检测准确性。

4. 临床验证

（1）通过前瞻性研究，将模型性能与放射科医师的诊断进行对比；

（2）与临床工作流程集成进行实际评估。

结语

在 CAD 诊断环境下，借助 ARCADE 数据集，对 YOLO、DINO 以及 Grounding DINO 开展狭窄检测的比较评估，为深入洞察这些前沿目标检测模型的优势与局限，提供了珍贵视角。基于 transformer 架构的 DINO 和 Grounding DINO，在 XCA 图像的 CAD 检测任务中，展现出精度提升、召回率良好的优势，适配性十分突出。反观 YOLO，其在计算效率上的优势，在资源受限的场景里，有着不可忽视的价值。研究表明，尽管目标检测技术已取得阶段性成果，但不管是优化模型、改良后处理技术，还是探索混合架构，仍存在广阔的优化空间。

本研究运用标准化指标进行系统评估，为自动化 CAD 诊断系统的持续迭代提供了参考，也进一步凸显深度学习在提升诊断准确率、减轻医疗人员负担方面的巨大潜力。