OV-DINO:统一开放词汇检测,语言感知选择性融合
项目介绍
OV-DINO 是一种创新的统一开放词汇检测方法,它集成了多种数据源进行端到端的预训练,并引入了语言感知选择性融合模块来提高模型的视觉语言理解能力。该项目提供了 OV-DINO 的官方 PyTorch 实现、预训练模型、微调代码以及推理演示。
项目技术分析
OV-DINO 的核心是统一数据集成管道,该管道整合了多种数据源,用于模型的端到端预训练。项目中的语言感知选择性融合模块则旨在通过结合视觉和语言信息,提升模型对物体检测的理解能力。该技术特别适用于零样本学习场景,即在模型训练时没有看到特定类别的样本,也能检测出这些类别。
OV-DINO 在多个数据集上的表现均优于之前的方法,尤其是在 COCO 和 LVIS 数据集上,零样本评估的相对改进分别为 COCO 上的 +2.5% AP 和 LVIS 上的 +12.7% AP,相比 G-DINO 有显著提升。
项目技术应用场景
OV-DINO 的设计使其在多种实际应用场景中表现出色,包括但不限于:
- 零样本物体检测:在模型未见过特定类别的情况下,仍能准确检测出这些类别。
- 实时物体检测:得益于高效的模型结构和融合策略,OV-DINO 可用于实时物体检测系统。
- 多模态数据融合:在处理包含图像和文本信息的多模态数据时,OV-DINO 可以更好地理解和利用这些信息。
项目特点
- 统一的开放词汇检测:OV-DINO 支持在开放词汇环境中进行物体检测,能够识别训练集中未出现的类别。
- 语言感知选择性融合:通过结合视觉和语言信息,模型在理解图像内容时更加精准。
- 多数据源集成:项目支持集成多种数据源进行预训练,增强模型的泛化能力。
- 高性能表现:在多个标准数据集上的实验结果表明,OV-DINO 在零样本和细粒度物体检测任务上具有优异的性能。
以下是 OV-DINO 的模型性能概览:
| 模型 | 预训练数据 | APmv | APr | APc | APf | APval | APr | APc | APf | APcoco | 权重链接 | | ----------- | ---------------- | --- | --- | --- | --- | ----- | --- | --- | --- | --------- | ------- | | OV-DINO1 | O365 | 24.4 | 15.5 | 20.3 | 29.7 | 18.7 | 9.3 | 14.5 | 27.4 | 49.5 / 57.5 | CKPT / LOG 🤗 | | OV-DINO2 | O365,GoldG | 39.4 | 32.0 | 38.7 | 41.3 | 32.2 | 26.2 | 30.1 | 37.3 | 50.6 / 58.4 | CKPT 🤗 | | OV-DINO3 | O365,GoldG,CC1M‡ | 40.1 | 34.5 | 39.5 | 41.5 | 32.9 | 29.1 | 30.4 | 37.4 | 50.2 / 58.2 | CKPT 🤗 |
注意:APmv 表示在 LVIS MiniVal 上的零样本评估结果,APval 表示在 LVIS Val 上的零样本评估结果,APcoco 表示在 COCO 上的(零样本/微调)评估结果。
OV-DINO 的发布为开放词汇检测领域带来了新的突破,其高效的性能和灵活的应用场景使其成为该领域的研究者和开发者的优选工具。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



