学术分享:基于 ARCADE 数据集评估 Grounding DINO、YOLO 和 DINO 在血管狭窄检测中的效果

一、引言

冠状动脉疾病(CAD)作为全球主要死亡原因之一,其早期准确检测对有效治疗至关重要。X 射线冠状动脉造影(XCA)虽然是诊断 CAD 的金标准,但这些图像的人工解读不仅耗时,还易受观察者间差异的影响。本研究评估了三种先进的目标检测模型——Grounding DINO、YOLO 和 DINO —— 在 ARCADE 数据集上对冠状动脉造影图像中狭窄(血管变窄)的自动检测性能。

图1 X 射线冠状动脉造影图像,紫色高亮区域显示狭窄。狭窄表示血管变窄,限制了流向心肌的血流。

二、冠状动脉疾病与狭窄的理解

冠状动脉疾病主要发生在供应心脏的主要血管受损或者发生疾病时,通常由动脉中斑块堆积引起。这会导致血管变窄(狭窄),从而限制流向心肌的血流。若不及时治疗,可能会导致心绞痛(胸痛)、心脏病发作,甚至死亡。

CAD的传统诊断方法包括:

(1)临床评估:评估症状和风险因素;

(2)非侵入性测试:包括心电图、压力测试和CT扫描;

(3)X 射线冠状动脉造影(XCA):将造影剂注入冠状动脉并捕获 X 射线图像的确定性诊断程序。

放射科医师需要手动解读这些血管造影图像以识别狭窄区域,这一过程不仅耗时且解读结果可能存在差异。通过深度学习自动化这一过程,可以显著提高诊断效率和一致性。

三、ARCADE 数据集

本研究使用 ARCADE 数据集(冠状动脉疾病事件自动化注册分析),这是一个专为自动 CAD 诊断设计的公开基准数据集。该数据集包含由专家标记的 X 射线血管造影图像,附有狭窄检测注释,为评估不同检测算法提供了标准化资源。

ARCADE数据集的主要特点包括:

(1)包含专家标记的狭窄区域;

(2)代表不同程度狭窄的多样化患者案例;

(3)冠状动脉的多角度视图;

(4)用于对比不同算法的标准化格式。

四、目标检测模型

研究评估了三种不同的目标检测架构,各代表计算机视觉的不同方法:

1. YOLO (You Only Look Once)

YOLO 是一种基于 CNN 的目标检测系统,以其实时推理能力著称。它将图像分成网格,在单次处理中直接从完整图像预测边界框和类别概率。

图2 YOLO 架构展示了特征主干网络、特征金字塔和预测头部组件。

YOLO 的主要特点:

(1)拥有在一次处理中处理整个图像的单阶段检测器;

(2)用于多尺度特征提取的特征金字塔,能同时注意到大小不同的狭窄区域;

(3)高处理速度,就像快速诊断,适用于需要立即结果的情况;

(4)在处理小物体或复杂医学影像数据时表现不佳,可能会错过非常细小的狭窄区域。

2. DINO

DINO 是一种基于 Transformer 的模型,利用自注意力机制增强特征表示。该模型基于DETR(DEtection TRansformer)架构,改进了训练收敛性和性能。


图3 DINO 架构,其中展示了具有多尺度特征处理的编码器-解码器 Transformer 结构。

DINO 的主要特点:

(1)无需非极大值抑制的端到端目标检测,便于直接给出诊断而不需要多个处理步骤;

(2)多尺度特征处理,同时关注患者的主要症状和细微症状;

(3)增强的查询选择机制,用于更好的特征表示,能够更精确地定位狭窄位置;

(4)在复杂检测任务上表现强劲,但可能需要更高的计算资源。

3. Grounding DINO

Grounding DINO 将 DINO 架构与基础预训练相结合,用于开放集目标检测。它结合了视觉和文本特征,实现更强大的目标检测。

图4 Grounding DINO 架构,其中展示了文本和图像特征之间的跨模态处理。

Grounding DINO 的主要特点:

(1)文本和图像特征之间的跨模态学习;

(2)用于改进表示的特征增强层,就像使用放大镜增强观察细节;

(3)语言引导的查询选择,能根据具体的语言描述寻找对应区域,如“查找50%以上的狭窄区域”;

(4)最小监督检测能力,即使只有有限的标记数据也能学习得很好。

五、研究方法

本研究使用了 MMDetection 框架(一个开源目标检测工具箱)实现了所有三种目标检测模型。评估遵循以下关键步骤:

1. 数据预处理

注释文件被调整为与 ARCADE 数据集格式一致,并过滤了冗余注释以确保标签一致性。

2. 模型配置

每个模型都在 MMDetection 框架中配置了适当的超参数(hyperparameter):

(1)YOLO:使用带有特征金字塔网络的 ResNet 主干;

(2)DINO:使用 Swin Transformer 主干和 transformer 编码器-解码器结构;

(3)Grounding DINO:配置了视觉-语言融合和交叉注意力机制。

3. 训练过程

模型在 ARCADE 数据集上使用标准优化技术进行训练:

(1)学习率调度;

(2)医学图像数据增强;

(3)适用于目标检测的损失函数( IoU 损失,分类损失)。

4. 评估指标

本研究使用标准 COCO 评估指标来评估不同模型的检测性能:

(1)IoU(交并比):测量预测框和真实框之间的重叠;

(2)平均精度(AP):测量不同 IoU 阈值下的检测准确性;

(3)平均召回率(AR):测量找到所有狭窄区域的能力。

六、结果与性能比较

研究的对比评估揭示了三种模型之间不同的性能模式:

1. 定量结果

(1)基于 Transformer 的模型(DINO 和 Grounding DINO)在大多数 IoU 阈值下通常比 YOLO 实现更高的平均精度(mAP)。

(2)Grounding DINO 在 IoU = 0.50 时获得最高 mAP,表明对于中等重叠检测具有强大性能。

(3)DINO 在 IoU 阈值从 0.50 到 0.95 的 mAP 中优于其他模型,展示了在不同重叠要求下的卓越精度。

(4)YOLO 获得了有竞争力的 mAP50 结果,显示出该类模型对中等重叠目标的精度平衡性能。

实验的性能指标反映了不同架构之间对精度和召回率的权衡:

(1)DINO:精度最高但召回率较低;

(2)Grounding DINO:精度和召回率之间保持了良好的平衡;

(3)YOLO:召回率良好,而精度中等。

2. 检测可视化比较

以下图像展示了每个模型在相同冠状动脉造影图像上的表现:


图5 DINO 的检测结果,结果更少但更精确。


图6 Grounding DINO 的检测显示具有明确标签的高置信度狭窄检测。


图7 YOLO 检测显示多个具有置信度分数的检测区域。

3. 定性分析

除定量指标外,对检测结果的定性分析揭示了每个模型在狭窄检测方法上的重要差异:

3.1 DINO 检测模式

DINO 总体上检测结果较少,偶尔会错过相关的狭窄区域,但其检测到的区域通常都是准确的。这表明该模型学习了更严格的狭窄判断标准。例如,在某些测试案例中,DINO 以高置信度检测到单个狭窄区域,同时错过了更微妙的次要区域。这种模式在图 5 和图 8 中很明显,模型识别了主要狭窄区域但可能忽略了其他狭窄区域。

图8 DINO检测显示其倾向于更少、更精确的检测。

3.2 Grounding DINO 检测模式

Grounding DINO 识别出了更多的区域,但有时由于过度检测导致预测混乱。该模型似乎利用其跨模态理解来检测更广泛的狭窄表现。如图 6 和图 9 所示,Grounding DINO 通常以不同置信度分数检测多个狭窄区域。虽然这增加了捕获所有狭窄区域的可能性,但同时也提升了假阳性的可能性。


图9 Grounding DINO 检测显示多个具有置信度分数的检测区域。

3.3 YOLO 检测模式

YOLO 通过有效捕获解剖结构同时保持相对高的置信度分数提供了合理的权衡。与基于 transformer 的模型相比,它对小型狭窄区域的检测更好。

如图 7 和图 10 所示,YOLO 的检测模式通常包括具有不同置信度分数的多个区域。这种方法为临床应用提供了精度与召回率之间的合理平衡。

图10 YOLO 检测显示多个具有置信度分数的检测区域。

七、局限性与挑战

通过本次研究,我们发现了几个影响模型性能的通用局限:

1. 数据相关挑战

(1)与通用目标检测数据集相比,ARCADE 数据集规模有限;

(2)正常病例和狭窄病例之间的类别不平衡;

(3)图像质量和对比度水平的变化。

2. 模型特定局限性

(1)YOLO:难以处理非常小的狭窄区域和低对比度区域;

(2)DINO:计算密集且需要更长的训练时间;

(3)Grounding DINO:在某些复杂情况下倾向于过度检测。

3. 临床整合挑战

(1)需要更高的精度以避免临床环境中的假阳性;

(2)可解释性要求:医生需要理解AI为何做出某个判断;

(3)患者间冠状动脉解剖结构的差异。

八、未来研究方向

基于研究发现,我们确定了几个颇有前景的研究方向:

1. 后处理技术以提高检测准确性

(1)结合不同模型输出的集成方法,例如使用 YOLO 的快速检测能力初步筛选,然后用 DINO 的精确定位能力进行细化。

(2)优化边界框以实现更好的定位。

2. 模型改进

(1)替代模型配置和训练策略;

(2)使用医学影像领域特定的增强技术;

(3)通过半监督学习方法来利用未标记数据。

3. 混合方法

(1)集成 CNN 和 transformer 架构以获得平衡性能;

(2)整合解剖先验知识以提高检测准确性。

4. 临床验证

(1)通过前瞻性研究,将模型性能与放射科医师的诊断进行对比;

(2)与临床工作流程集成进行实际评估。

结语

在 CAD 诊断环境下,借助 ARCADE 数据集,对 YOLO、DINO 以及 Grounding DINO 开展狭窄检测的比较评估,为深入洞察这些前沿目标检测模型的优势与局限,提供了珍贵视角。基于 transformer 架构的 DINO 和 Grounding DINO,在 XCA 图像的 CAD 检测任务中,展现出精度提升、召回率良好的优势,适配性十分突出。反观 YOLO,其在计算效率上的优势,在资源受限的场景里,有着不可忽视的价值。研究表明,尽管目标检测技术已取得阶段性成果,但不管是优化模型、改良后处理技术,还是探索混合架构,仍存在广阔的优化空间。

本研究运用标准化指标进行系统评估,为自动化 CAD 诊断系统的持续迭代提供了参考,也进一步凸显深度学习在提升诊断准确率、减轻医疗人员负担方面的巨大潜力。

参考资料

1. 论文《Evaluating Stenosis Detection with Grounding DINO, YOLO, and DINO-DETR》,作者:Muhammad Musab Ansari。链接:https://arxiv.org/abs/2503.01601

2. 在 DINO-X 开放平台调用最新的 DINO 模型 API:https://cloud.deepdataspace.com/

3. Grounding DINO Playground:https://cloud.deepdataspace.com/playground/grounding_dino

<think>好的,我现在需要处理用户关于DQ-DETR在短语提取与定位中的应用的问题。首先,我得仔细阅读用户提供的引用内容,特别是引用[2]引用[3],以获取足够的信息来构建回答。用户想知道DQ-DETR的实现用法,涉及双查询机制以及如何应用于短语提取定位。 首先,我需要明确DQ-DETR的核心创新点。根据引用[2],DQ-DETR通过双查询机制处理图像文本的特征,共享位置部分但内容部分不同。这有助于缓解多模态对齐的问题。同时,它将短语提取视为一维文本分割任务,与目标检测结合。这些是回答的关键点。 接下来,我需要解释双查询机制的具体实现。根据引用,双查询包括对象查询短语查询,分别处理图像文本特征。位置共享可能意味着两者关注相同的空间区域,但内容部分不同,用于捕捉不同模态的信息。需要详细说明这部分的结构,可能涉及Transformer解码器的设计。 然后,短语提取与定位的结合部分。引用中提到使用短语掩码引导注意力,这可能是在解码器中利用文本信息来优化图像区域的关注。同时,一维文本分割任务如何与边界框回归结合,需要进一步解释,可能涉及不同的预测头或损失函数。 在实现步骤方面,用户可能需要知道模型架构的模块,比如视觉编码器、文本编码器、双查询解码器等。需要分点说明每个部分的作用,例如视觉编码器处理图像,文本编码器处理文本,解码器生成预测结果。 应用场景部分,根据引用[2][3],多模态检索、图像标注、视觉问答都是可能的场景。需要结合这些信息给出具体例子,比如在图像中定位文本提到的物体。 最后,比较与T-Rex2的差异。引用[3]提到T-Rex2结合文本视觉提示,而DQ-DETR专注于双查询机制。需要指出两者在处理多模态输入时的不同方法,以及各自的优势。 需要注意的是,用户要求回答结构清晰,分点说明,并且引用正确。所有技术术语需要用中文准确表达,同时确保LaTeX格式正确,特别是行内公式独立公式的使用。例如,提到损失函数时可能需要用$$...$$格式。 可能的问题点:引用是否正确,是否遗漏了关键实现细节,以及如何将技术细节转化为用户易于理解的语言。需要检查引用[2]中的描述是否准确,确保没有错误传达模型的结构。 总结回答结构:概述DQ-DETR的任务目标,双查询机制详解,实现步骤,应用场景,与T-Rex2的对比,最后相关问题。每个部分需要引用对应的文献,并在末尾添加引用标识。</think>### DQ-DETR在短语提取与定位中的应用 DQ-DETR(Dual Query Detection Transformer)是一种针对**短语提取与定位**(Phrase Extraction and Grounding, PEG)任务设计的模型,旨在从文本中提取关键短语并同时在图像中定位对应的目标对象。其核心创新在于**双查询机制**,通过联合优化文本与图像特征的模态对齐,提升跨模态任务的性能[^2]。 --- #### 1. **双查询机制详解** DQ-DETR通过两种查询实现多模态特征交互: - **对象查询(Object Query)**:用于探测图像特征,预测目标对象的边界框(Bounding Box)。 - **短语查询(Phrase Query)**:用于提取文本特征,生成短语掩码(Phrase Mask),即从文本中分割出关键短语的1D表示。 **关键设计**: - **共享位置编码**:两类查询共享位置信息,确保文本短语与图像对象在空间上对齐。 - **独立内容编码**:通过分离内容特征,分别捕捉图像(视觉)文本(语义)的模态特异性信息。 例如,模型通过以下公式关联双查询特征: $$ Q_{\text{obj}} = Q_{\text{pos}} \oplus Q_{\text{img}}, \quad Q_{\text{phrase}} = Q_{\text{pos}} \oplus Q_{\text{text}} $$ 其中,$Q_{\text{pos}}$为共享位置编码,$Q_{\text{img}}$$Q_{\text{text}}$分别为图像文本的内容编码。 --- #### 2. **实现步骤** DQ-DETR的实现分为以下模块: 1. **视觉编码器**:使用CNN或ViT提取图像特征。 2. **文本编码器**:采用预训练语言模型(如BERT)生成文本嵌入。 3. **双查询解码器**: - 通过**交叉注意力**机制融合图像与文本特征。 - 对象查询预测边界框,短语查询生成短语掩码。 4. **联合训练**:结合目标检测损失(如L1边界框损失)短语分割损失(如Dice Loss)进行端到端优化。 **代码示例(简化版解码器逻辑)**: ```python class DQDecoder(nn.Module): def __init__(self): super().__init__() self.object_query = nn.Embedding(100, 256) # 对象查询 self.phrase_query = nn.Embedding(100, 256) # 短语查询 def forward(self, image_feats, text_feats): # 共享位置编码 + 模态特定内容编码 obj_queries = self.object_query + image_feats phrase_queries = self.phrase_query + text_feats # 交叉注意力交互 outputs = transformer_decoder(obj_queries, phrase_queries) return outputs ``` --- #### 3. **应用场景** - **多模态检索**:从文本描述中定位图像中的物体(如“红色汽车”)。 - **图像标注**:根据检测到的对象生成对应短语标签。 - **视觉问答(VQA)**:结合短语与对象信息回答复杂问题[^2]。 --- #### 4. **与T-Rex2的对比** - **DQ-DETR**:专注于**短语与对象的联合建模**,通过双查询解决模态对齐问题。 - **T-Rex2**:支持**文本与视觉提示的灵活组合**,更适合开放域目标检测[^3]。 ---
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值