【论文精读】MM GroundingDino：An Open and Comprehensive Pipeline for Unified Object Grounding and Detection

最新推荐文章于 2025-05-27 10:14:35 发布

钱多多先森

最新推荐文章于 2025-05-27 10:14:35 发布

阅读量1.4k

点赞数 32

CC 4.0 BY-SA版权

分类专栏：论文精读文章标签：人工智能目标检测多模态大模型

本文链接：https://blog.youkuaiyun.com/wsLJQian/article/details/145781267

论文精读专栏收录该内容

8 篇文章

订阅专栏

一种开放、全面的统一目标接地和检测管道

赵翔宇1陈一成1徐世林1李祥泰1王新疆2李以宁1黄海安1，†

1上海人工智能实验室 2商汤科技研究院

摘要

Grounding-DINO是一种先进的开放集检测模型，可解决开放词汇检测（Open Vocabulary Detection，OVD）、短语定位（Phrase Grounding，PG）和参考表达理解（Referring Expression Comprehension，REC）等多种视觉任务。它的有效性已经导致它作为各种下游应用程序的主流架构被广泛采用。

开放词汇检测（OVD）：
通过将图像区域与文本嵌入对齐，检测训练时未定义的物体类别。用户可通过输入文本提示（如“红色苹果”）动态扩展检测类别，无需重新训练模型。

短语定位（PG）：
将文本中的短语（如“树下的自行车”）与图像中的特定区域精确匹配，实现细粒度的跨模态对齐。例如，在电商场景中，可用文字标注商品位置。

指代表达理解（REC）：
处理复杂的上下文描述（如“穿着蓝衬衫的男人的左侧的狗”），理解图像中物体间的关系和场景语境。适用于需要高精度交互的AR/VR应用。

然而，尽管其意义重大，由于无法获得其训练代码，原始的Grounding-DINO模型缺乏全面的公开技术细节。为了弥补这一差距，我们提出了MM-Grounding-DINO，这是一个开源的、全面的、用户友好的pipeline，它是用MMDetection工具箱构建的。它采用丰富的视觉数据集进行预训练，采用多种检测和接地数据集进行微调。我们对每个报告的结果和详细的再现设置进行了全面的分析。在上述基准测试上的大量实验表明，我们的MM-GroundingDINO-Tiny优于grounding-dino - tiny基线。我们将所有模型发布给研究社区。代码和训练模型发布在https:// github.com/open-mmlab/mmdetection/tree/ main/configs/mm_grounding_dino。

1. 介绍

目标检测的任务通常包括将图像输入到模型中以获得proposals，然后通过多模态对齐将其与文本匹配，使其成为最先进的多模态理解体系结构的关键组件。目前，根据输入文本的类型，目标检测可以细分为三个子任务：开放词汇检测（Open-Vocabulary detection， OVD）、短语建立（Phrase Grounding， PG）和参考表达理解（reference Expression Comprehension， REC）。

在zero-shot设置之后，

OVD 模型在基本类别上进行训练，但需要预测大规模语言词汇[29]中的基本类别和新类别。
短语接地任务不仅需要一个类别，还需要一个短语，该短语将所有候选类别描述为输入和输出对应的框[25]。
REC 任务的主要目的是准确识别给定文本描述指定的目标，然后利用边界框[9]标定其位置。

近年来，人们探索了许多视觉基础和检测模型来解决上述任务。在这些接地模型中，Grounding-DINO[20]以其优异的性能成为主流架构。grounding -DINO- large基于闭集探测器DINO[34]，无需任何COCO训练数据即可在COCO [17]（mAP 52.5）上实现最先进的zero-shot性能。Grounding-DINO在不同阶段执行视觉和语言模式的集成，包括特征增强器、查询选择模块和解码器。这种深度融合方法显著增强了开放环境下的目标检测，基于detr的结构使其成为一个端到端网络，没有任何硬件模块。

PAGE 2

鉴于Grounding-DINO在上述三个下游任务中表现出了卓越的精度，但并非完全开源（仅提供测试和演示代码），我们利用OpenMMLab项目中的MMDetection工具箱[4]重建了Grounding-DINO模型，并遵循了Grounding-DINO的官方测试代码。模型的结构几乎保持不变，除了初始化期间的修改。基于Grounding-DINO框架，我们提出应用更多的数据集进行预训练，包括COCO、Objects365[27]、GRIT[23]、V3Det[28]、RefCOCO[13]、RefCOCO+[33]、RefCOCO[22]、GQA [11] / Flickr30k Entities[24]（组合也称为GoldenG dataset[12]），得到一个更强的Grounding-DINO based model，我们称之为MM-Grounding-DINO。由于Grounding-DINO使用的Cap4M数据集[25]不是开源的，我们在研究中选择了GRIT和V3Det数据集作为替代。

我们进一步扩展了OVD， PG和REC评估的所有可用基准，包括COCO， LVIS [8], RefCOCO/+/g, Flickr30k Entities, ODinW13/35 [15]， gRefCOCO[19]和描述检测数据集（d3）[30]。据我们所知，我们是第一个实施一个框架，促进对如此广泛的数据集进行系统评估。所有的评估指标都可以在MMDetection中随时获得。MM-Grounding-DINO-Tiny经过大量数据的预训练，在COCO上实现了50.6 mAP的zero-shot，在LVIS mini上实现了41.4 mAP的zero-shot，在REC任务上全面超越了Grounding-DINO-Tiny，具体结果见第3节。我们希望我们的管道将成为进一步研究OVD， PG和REC任务的宝贵资源。本文的贡献如下：

MM-Grounding-DINO是一种基于Grounding-DINO并经过丰富视觉数据集预训练的综合性开源接地管道，能够全面解决OVD、PG和REC任务。
我们率先扩展了OVD， PG和REC评估的所有可用基准，包括COCO， LVIS, RefCOCO/+/g, Flickr30K Entities, ODinW13/35， gRefCOCO和d3。所有的评估指标都可以在MMDetection中随时获得。
我们通过大量外部特殊数据集对模型进行微调，从而广泛评估模型的转移能力。

2.方法

在本节中，我们将详细介绍模型和数据集。除非另有说明，MM-G表示MM-Grounding-DINO。G-DINO指grounding - dino。O365是指Objects365 V1， GoldG 是指以下章节中GQA和Flickr30k实体的组合。

2.1. 模型

正如我们在章节中提到的，我们的模型基于grounding dino [20]，几乎保持不变。我们的框架如图3所示。给定形状为[Batchsize， 3， H， W]和文本描述的图像，我们的模型可以将描述与相应生成的边界框对齐。我们模型的组件包括用于提取文本特征的文本主干、用于提取图像特征的图像主干、用于深度融合图像和文本特征的特征增强器、用于查询初始化的语言引导查询选择模块，以及用于盒细化的跨模态解码器。该结构的更多细节绘制在[20]中。

Feature Extraction and Fusion 特征提取与融合。给定一个图像-文本对，我们利用图像主干提取多尺度的图像特征，同时利用文本主干提取文本特征。然后将这两个特征输入到特征增强模块中进行跨模态融合。在特征增强模块中，首先通过包含文本到图像交叉注意层和图像到文本交叉注意层的双注意块融合文本特征和图像到文本交叉注意层。然后融合文本特征和2 在图像特征的基础上，分别使用普通的自注意层和可变形自注意层，然后分别使用FFN层进行增强，如图1所示。

Language-Guided Query Selection 语言引导查询选择。为了优化文本对引导目标检测的利用，Grounding DINO设计了语言引导查询选择模块。语言引导查询选择模块根据与输入文本特征的余弦相似度选择num个查询建议作为解码器查询。参数num query表示输入到解码器的查询数，在我们的实现中，它被配置为900，紧跟DINO[34]。解码器的输入查询由两个组件组成：内容部分和位置部分。位置部分表示动态锚框，并根据语言引导查询选择模块的输出进行初始化，而内容部分初始化为全零可学习查询。

Cross-modality Decoder 交叉模式解码器。Grounding-DINO中的跨模态解码器层旨在进一步合并文本和图像特征以进行跨模态学习。在自注意之后，该体系结构包含一个图像交叉注意层，然后是一个文本交叉注意层，最后是一个FFN层。与DINO解码器层相比，每个解码器层都具有一个额外的文本交叉注意层。需要在查询中注入文本信息，从而提高模型的性能，因此需要这种增强。

Training Loss 培训的损失。盒回归分支实现L1损耗和GIOU[26]损耗。在GLIP[16]之后，我们利用焦点损失focal loss[18]作为预测框和语言标记之间的对比损失进行分类。每个预测框将与所有语言标记相乘，以计算它们之间的相似性。结合盒回归和分类损失计算二分图匹配损失[3]。与grounding dino一致，我们在每个解码器层和编码器输出中加入了辅助损耗(aux)。”

Difference不同。MM-G与GDINO的主要区别在于对比嵌入模块。在CLIP[25]的激励下，我们在初始化对比嵌入模块时加入了偏置。这样可以显著降低初始损失值，加快模型的收敛速度。

实现代码见算法2。

2.2. 数据准备

PAGE 4

我们的数据格式由Open grounding dino[35]中的格式驱动，并使用MMDetection中的格式进行修改。由于MM-Grounding-DINO的设计目的是使用不同类型注释的数据集来解决三个任务，因此我们将使用的15个数据集分别分为三组。数据集的详细信息见表2。

值得注意的是，在训练过程中，GRIT中超过1300万的全部数据并没有被充分利用。相反，它被划分为每个epoch 500,000个的段。

OVD数据集：我们用于训练的数据集包括COCO[17]、Objects365V1[27]、Objects365V2[27]、V3Det[28]、Open-Images，评估数据集包括COCO、LVIS[8]、ODinW12/35[15]。
PG数据集：训练数据集包括GQA [11]， GRIT [23], Flickr30K Entities[24]，同时也使用Flickr30K Entities数据集进行评估。
REC数据集训练数据集：包括RefCOCO[13]、RefCOCO+[33]、RefCOCO[22]。为了进行评估，我们使用了更广泛的数据集，其中包括RefCOCO， RefCOCO+, RefCOCO， gRefCOCO[19]和描述检测数据集（d3）[30]。

2.3. Training Settings

Training Settings文本输入规则。

对于OVD训练，我们将检测数据集中的所有类别连接为一个长字符串，例如”People. Ball. Racket. Cat.”。
对于PG和REC任务，在M-DETR[12]之后，在预训练阶段，我们注释了文本中引用的每个对象，这导致模型对该任务的应用略有修改。

例如，在预训练期间，给定标题”The woman wearing a blue dress standing next to the rose bush.”， MM-Grounding-DINO将被训练来预测所有被提及物体的边界框，比如woman, the blue dress, and the rose bush.。

Model Variants 模型变体。与Grounding-DINO类似，我们选择一个经过良好预训练的 BERT-based-uncased [6] model [6]作为我们的语言编码器，并选择Swin Transformer[21]作为图像主干。我们比较了MM-G-Tiny和G-DINO-Tiny数据集的不同组合。训练数据集的选择取决于图像主干的规模，如表1所示。

Data Augmentation数据增强。除了随机调整大小、随机剪辑和随机翻转外，我们还在数据增强中引入了随机负样本。我们将**从其他图像中随机抽取的类别或文本描述（作为负面示例）**与作为正面示例的基本事实描述连接起来。这样可以有效地抑制模型产生的幻觉现象，从而模型不会预测图像中不存在的物体。

Computing Resources计算资源。我们在32个NVIDIA 3090 gpu上训练MM-G-Tiny，总批大小为128个，共30个epoch。由于MM-G-Large的计算成本非常高，MM-G-Large模型还在训练中。在zero-shot设置中，MM-G模型最初在基础数据集上进行训练，随后在新数据集上进行评估。此外，我们提出了一组来自微调的结果，以促进我们的模型与grounding dino的全面比较。这种方法确保了对模型的性能及其在该领域的相对地位的稳健评估。

3.主要结果

3.1. Zero-shot Transfer

PAGE 5

在Zero-shot设置中，MM-G模型首先在基础数据集上进行训练，然后在新数据集上进行评估。此外，我们提出了一组来自微调的结果，以促进我们的模型与grounding dino的全面比较。这种方法确保了对模型的性能及其在该领域的相对地位的可靠评估。

数据使用情况的不同，分成了不同的版本：

a：只使用O365训练的 model

b：使用O365、Gold-G训练 model

c：使用O365、Gold-G和Cap4M训练 model

COCO Benchmark。我们在O365数据集和其他PG/REC数据集上对mm- grounded - dino进行了预训练。在Grounding-DINO之后，利用COCO数据集建立zero-shot学习基线。我们在表3中比较了mm - grounding-dino - tiny和grounding- dino - tiny。结果表明，即使只使用O365训练的MM-G(a) （mAP 48.5）也能优于使用O365、Gold-G和Cap4M训练的G-DINO© (mAP 48.4)，证明了我们模型的有效性。在object365、Gold-G和GRIT的训练下，MMG-T©在COCO基准上的性能为50.5 mAP，比G-DINO©提高了2.1 AP。这是在训练过程中模型没有暴露于任何COCO图像的情况下实现的，我们使用的GRIT数据甚至小于Cap4M（4M）。对此有两种可能的解释：

我们的训练策略，特别是初始化过程中的additional bias，有助于模型的收敛。
O365数据集包含COCO数据集的类别。因此，我们的模型在O365数据集上进行了广泛的训练，自然在COCO数据集上表现出更高的准确性。当在其他数据集上评估模型时，观察到的相对较低的性能，间接验证了这一断言。

还观察到，V3Det数据集的合并对COCO zero-shot评估没有积极贡献，甚至可能产生不利影响。

LVIS Benchmark。LVIS数据集构成了一个长尾检测数据集，包含1000多个不同的类别进行评估。继Grounding DINO之后，LVIS还用于zero-shotOVD评估。我们将MM-Grounding-DINO-Tiny与Grounding DINO-Tiny在表4中进行比较。我们观察到，尽管在没有Cap4M的情况下，MM-G(a)在O365和GoldG的训练下，在LVIS MiniVal和Val上仍然超过G-DINO© +6.9AP。MM-G（c1）在MiniVal上超过G-DINO© +7.7AP，在Val上超过G-DINO© +7.0AP，在V3Det上，MM-G（c3）在MiniVal上达到41.4 AP，在Val上达到31.9 AP，在MiniVal上超过G-DINO© +12.6 AP，在Val上超过G-DINO© +11.8 AP ！潜在的原因可以分为两个方面：

模型展示了更全面的LVIS类别词汇训练。
V3Det包括超过13k个类别，可能涵盖了LVIS的大部分类别，[31]也得出了类似的结论。

ODinW Benchmark。ODinW（(Object Detection in the Wild, 野外对象检测）基准代表了一个更严格的基准，用于评估现实环境中的模型性能。它由35个目标检测数据集组成，每个数据集都有外部知识的增强。我们利用ODinW13/35来评估模型的可转移性，总结结果如表6所示。我们的MM-G-T（c3）表现出优于G-DINO-T©的性能，在ODinW13和ODinW35上分别获得了53.3和28.4 mAP的分数，证明了我们模型的鲁棒可移植性。很明显，广泛的词汇表对于ODinW数据集具有重要意义。在集成V3Det后，该模型的性能得到了实质性的增强。这种改进的主要原因是V3Det在ODinW中包含了更广泛的类别。每个子数据集的详细结果见附录A.3。

RefCOCO/+/g和gRefCOCO Benchmark。我们还评估了MM-G在REC任务上的zero-shot能力。建立RefCOCO、RefCOCO+、RefCOCOg进行REC评价，结果如表5所示。与RefCOCO相比，gRefCOCO将其范围扩大到包含多目标表达式，即通过一个表达式指定多个目标对象。此外，gRefCOCO还支持不引用图像中任何对象的无目标表达式。这种增强显著提高了输入表达式的通用性，从而增强了实用性5 以及REC在实际应用中的健壮性。我们还对gRefCOCO基准进行了评估，以评估REC的zero-shot能力，结果如表7所示。我们的模型能够在RefCOCO的所有zero-shot评估指标上超过基线，并且可以在gRefCOCO上超过或近似等于G-DINO。从结果可以推断，V3Det数据集不能为REC任务提供任何好处。

描述检测数据集（Description Detection Dataset，D3）基准。D3的特点是其灵活的语言表达，从简洁的类别名称到广泛的描述，并确保全面注释所有图像中描述的所有对象而不遗漏。D3中的句子比普通单词略长，因此对模型的理解能力要求不高。事实上，它更倾向于OVD任务。此外，D3中有24282对正面的对象-文本对和7788626对负面的对象-文本对，这对模型区分负面对象的能力提出了严格的要求。我们在表8中报告了我们的结果。从结果中，我们观察到使用GRIT训练的MM-G-T（c1）和使用Cap4M训练的G-DINO-T©表现出相当的性能。特别是MM-G-T（c1）在处理长句方面表现出进步，而G-DINO-T©在处理短句方面表现出进步。这将在第3.2节中详细阐述。在加入包含大量精确标注的V3Det后，MM-G-T（c3）在短句上的性能超过了G-DINO-T©，而在长句上的性能变差。这主要是因为V3Det中的大多数文本注释都是短句。

3.2. GRIT分析

PAGE 7

GRIT[23]是一个大型数据集，用来替代在GLIP[16]中创建的Cap4M，因为后者不是开源的。但是，从上面的结果可以看出，GRIT的性能并没有达到我们的预期。对于OVD任务，有GRIT的MM-G-T（c1）仅比没有GRIT的MM-G-T(b)在表3的COCO上提高+0.1 AP，在表4的LVIS上提高+0.1 AP（Val）。对于REC任务，GRIT在表5和表7中的RefCOCO和gRefCOCO上带来的增益相对较低。从我们对GRIT中的图像和注释的观察来看，主要原因如下：

GRIT的文本注释来自于spaCy[10]从COYO700M和LAION-2B的标题中提取的短语或句子，包括大量的抽象短语，如人名、事件、设施、地缘政治实体等，这可能会导致模型的误导。
在GRIT数据集中，大多数图像都伴随着单个注释。单个注释包含一个长句子（实际上是图像的整个标题）和一个噪声框（大约跨越图像的整个范围）。

然而，值得注意的是，GRIT 的大规模数据仍然有其用途。表6中，在ODinW13/35上，采用GRIT的MM-G-T（c1）比MM-G-T(b)高出5.8/2.6 AP，与采用Cap4M预训练的G-DINO-T©相当。因此，我们从表8中观察到，带有GRIT的MM-G-T（c1）和带有Cap4M的G-DINO-T©在d3上表现出相当的性能。幸运的是，GRIT的单一长文本注释有助于增强MMG-T（c1）对长句的性能。

3.3. 通过微调进行验证

The default fine-tuning in this report is based on MM-GT(c3) pre-trained model.

3.3.1 COCO/LVIS的微调

Fine-tune on COCO。我们使用MM-Grounding-DINO实现了三种主流的微调方法，以全面评估其功能：

close-set fine-tuning,
open-set continuing pretraining fine-tuning,
and open-vocabulary fine-tuning。

后两种微调方法旨在保持模型的泛化性，同时提高COCO数据集上的性能。

在close-set fine-tuning中，我们使用close-set 算法对模型进行了微调，专门针对COCO数据集进行了优化。经过微调后，文本输入被限制为COCO类别。
在open-set continuing pretraining fine-tuning中，我们在预训练阶段基于相同的训练策略推导出两种不同的方法。第一种方法是降低学习率并冻结某些模块，然后继续在COCO数据集上进行训练。第二种方法是将COCO数据集与MM-G-T（c3）的其他预训练数据集相结合，继续训练。
对于open-vocabulary fine-tuning，我们将数据集分为基本类别和新类别。在调优期间，只使用基本类别。随后，我们评估了该模型在基本类别和新类别中的表现。

如表10所示，MM-G-T通过闭合集微调和开放集持续预训练微调显著提高了COCO数据集上的性能。值得注意的是，经过12次近集微调，MM-G-T的mAP增加了7.8，达到了58.2 mAP。有关开放词汇表微调的更多结果，请参阅附录A.4中的表15。

Fine-tune on LVIS。LVIS数据集以其长尾分布为特征，包含1203个类别。考虑到这种广泛的分类，我们专门对该数据集使用开放集持续预训练微调和开放词汇微调。

如表9所示，open-set continuing pretraining fine-tuning 显著提高了MM-G-T的性能。值得注意的是，MM-G-T在Mini LVIS的4月度量中实现了9.0 mAP的大幅增加。

3.3.2 REC的微调

PAGE 8

RefCOCO/+/g微调。我们通过对REC任务进行微调来进一步评估我们的模型，详见表5。在MDETR[12]之后，我们将微调阶段调整为phrase grounding，与预训练一致。表5所示的结果表明，经过5次微调后，REC任务性能有了显著改善。这表明当前的RefCOCO/+/g数据集及其评估指标可能过于简单。利用phrase grounding对该任务进行微调仍然会带来显著的增强。我们期待出现一个更强大、更严格的评估指标，以进一步提高REC任务的熟练程度。

3.3.3 下游任务的微调

为了全面展示mm-Grounding-DINO的通用性，我们将其评估扩展到各种下游任务。在微调设置中，模型最初在扩展数据集上进行训练，然后使用来自各自下游任务的训练集进行专门训练。

Object Detection in the Haze。我们的研究使用了真实世界任务驱动测试集（Real-world Task-driven Testing Set, RTTS），包括4,322张真实世界的朦胧图像，主要以交通和驾驶场景为特征。RTTS数据集包含雾霾条件下的各种常见类别，提供了一个合适的平台来访问我们的模型在不同环境中的有效性和泛化性。我们采用基准中提出的相同的除雾和检测联合管道。令人印象深刻的是，经过12次微调，MM-Grounding-DINO达到了69.1 AP，大大超过了以前的标准，如表11所示。

Object Detection Underwater水下目标探测。在这项研究中，我们评估了mm - Grounding-DINO在真实世界水下目标检测数据集（Realworld Underwater Object Detection, RUOD）[7]上的性能。该数据集包含14000张高分辨率图像和74903个标记实例。该数据集具有不同的类别、对象尺度、图像尺度、对象密度和类别密度，同时也引入了一系列水下挑战。这些包括雾状效果、色偏、光干涉和复杂的海洋物体。该评估利用RUOD数据集来确定我们的模型在不同图像域中的能力，同时处理常见对象的子集。

从表11可以看出，在zero-shot设置下，mm-grounding-dino的mAP值为29.8，主要原因是训练数据集（主要由地面图像组成）与RUOD分布不匹配。然而，经过12次的微调，该模型显示出提高 35.7 mAP的改进，从而建立了一个新的基准。这一性能超过了之前的核心状态 8.1 mAP。

Realworld Underwater Object Detection脑肿瘤的目标检测。我们进一步将我们的评估扩展到医学领域，利用脑肿瘤数据集[2]。值得注意的是，这个数据集的标记方法是唯一的，因为它只使用数字标识符而不提供描述性标签信息。如表11所示，MM-Grounding-DINO的性能低于Cascade-DINO[32]。我们假设，我们模型的相对次优结果可能归因于数据集对纯数字标签的依赖所带来的挑战，特别是在文本上下文完全未知的情况下。

Object Detection for Cityscapes.城市景观的对象检测。cityscape[5]是一个广泛的城市街景集，包括3k个训练图像和500个验证图像。它的特点是在50个不同城市的街道上拍摄了广泛而多样的立体视频序列，并附有高质量的像素级注释。该数据集评估了我们的模型在识别日常生活中遇到的常见物体方面的性能。值得注意的是，在表11中，我们可以观察到，我们预训练的MM-Grounding-DINO在不需要任何特定于数据集的训练的情况下，已经与微调过的模型表现相当(34.8–34.2)。经过50次的微调，提高到17.3 mAP（34.2–>51.5），达到了新的SOTA。

Object Detection for People in Painting绘画中人物的目标检测。People in Paintings[1]最初是由Raya AI作为RF100的一部分创建的，RF100是一个为模型泛化性建立新的对象检测基准的倡议。本数据集中的注释仅适用于绘画中描绘的人物。如表11所示，我们的MM-GroundingDINO模型在zero-shot设置下的性能已经优于微调模型。经过50个epoch的微调后，它表现出了显著的改善，实现了+15.8AP的增长，创下了38.9 mAP的新基准。

4.结论

PAGE 9

在本文中，我们提出了一种基于Grounding-DINO的综合开源接地基线MM-Grounding-DINO，并使用丰富的视觉数据集进行预训练，全面解决OVD， PG和REC任务。我们扩展了OVD、PG和REC评估的所有可用基准，并且所有评估指标都可以在MMDetection中随时获得。在上述基准测试上进行的大量实验表明，我们的MM-Grounding-DINO优于（或与Grounding-DINO基线相当）。我们希望我们的pipeline将成为进一步探索grounding和detection 任务的宝贵资源。

补充材料

A.更多结果 .

A.1. 关于gRefCOCO的详细结果

PAGE 11

在我们的实验中，我们最初将默认阈值设置为[19]之后的0.7。然后我们用不同的阈值进行了一系列广泛的测试。表12详细列出了这些不同阈值对结果的影响。我们观察到阈值调整对输出的明显影响。具体来说，0.8的阈值产生验证集的最高F1分数。相比之下，对于测试集A和B，较低的阈值0.5证明更有效。这导致了对该数据集开发更健壮的评估指标的期望。值得注意的是，在微调过程（阈值设置为0.7）之后，gRefCOCO的所有子集都显示出显著的改进。

A.2 Flickr30K实体的详细结果

如表13所示，MM-G-T©在Flickr30K实体上的性能低于G-DINO-T。考虑到GoldG数据集包括来自Flickr30K实体的图像，重要的是要注意这些结果并不代表zero-shot场景。观察到的表现差异可归因于训练策略和设置的变化。

A.3 ODinW数据集的详细结果

我们在表14中提供了我们使用的35个数据集的详细信息。考虑到ODinW13/35数据集中类别的稀缺性，GRIT和V3Det数据集带来的额外概念被证明是有益的。

A.4 COCO上的开放词汇微调

如第3.3.1节所述，表15中的结果显示，尽管仅对基本类别进行了微调，但在新类别中可以观察到+1.5 mAP增强。这一发现证明了开放词汇表微调在保持模型的泛化性方面的有效性。

术语	定义	技术目标	典型应用场景
box	边界框定位准确性	评估模型对物体位置的预测能力	所有目标检测任务‌13
base	已知类别的检测精度	验证模型对训练已见类别的稳定性	封闭集检测（如医疗图像分析）‌14
novel	未知/新类别的检测精度	衡量模型对新类别或长尾类别的泛化能力	开放世界检测（如自动驾驶新物体识别）‌12

B. 可视化

B.1 预训练数据集的可视化

在图4中，我们展示了预训练数据集的可视化。我们对这些数据集的分析揭示了一些可能会破坏训练效果的噪声元素。例如，一些标题包含功能词而没有实质内容，例如左上角的“who”和左下角的人名等专有名词。此外，使用GLIP生成伪标签的GRIT数据集可能在注释中存在不准确性。这在右下角的图像中很明显，其中框注释似乎分配不正确。在GQA数据集中也有类似的情况。在右上方的图片中，标题中的同一个短语“一个女人”被分配到不同的框中，这与短语的接地设置相矛盾。

B.2 模型预测的可视化

PAGE 13

对于图6和图5，左侧描述了基本事实注释，而右侧显示了我们的模型所做的预测。

Limitations of Evaluation评估的局限性。我们对评估过程的基于可视化的分析揭示了评估数据集的基础事实注释的不准确性。这在图5中很明显，关于“girl”对象，我们的模型的预测似乎比现有的注释更精确。

Limitations of Model模型的局限性。在预训练阶段，尽管模型可以访问整个标题，但它倾向于优先考虑名词，这对于短语基础设置至关重要。例如，在图6a所示的标题“没有头盔的骑手”中，模型主要关注(a)预测（右）主要关注“骑手”和“头盔”，而忽略了关键的关系术语“没有”。这导致无法区分“戴头盔”和“不戴头盔”。

此外，模型在解释某些详细描述时遇到困难，例如在图6b中，模型错误地检测到“马穿过栏杆”。在标题中的位置描述方面，模型只达到了如图6c所示的次优性能，将左边的对象与右边的对象混淆了。在图5中，由于短语接地设置，我们的模型还预测了“飞盘”，这导致评估中的性能较低。