Grounding DINO:根据文字提示检测任意目标

Grounding DINO是一种基于Transformer的模型,能根据文字描述进行目标检测,尤其在open-set和Referring Expression Comprehension任务中表现出色。通过创新的Feature Extraction and Enhancer、Language-Guided Query Selection、Cross-Modality Decoder等方法,实现了多模态特征融合,无需额外训练数据就能在COCO和ODinW数据集上取得高AP值。

在这里插入图片描述


既CLIP打破文字和图像之间的壁垒、DINO提高了目标检测精度的上限之后,又一力作横空出世,它就是 Grounding DINO。

简单来说,Grounding DINO可以根据文字描述检测指定目标。例如下图左侧,你告诉它:“检测左边的狮子!”,它就会只把左边的狮子框选出来,是不是很神奇?当Grounding DINO和stable diffusion结合时,就会出现更加神奇的功能:自动P图。如下图右侧,你告诉它:“将左侧的狮子变成狗”,它就会帮你把左边的狮子P成狗。

在这里插入图片描述
在不需要任何COCO训练集的情况下,Grounding DINO就在COCO minival测试集中达到了52.5AP,经过微调之后达到了63.0AP。这样的结果可以说是非常的Amazing了,下面我将详细介绍Grounding DINO的原理。

1. 背景介绍

在视觉领域,要想达到真正的智能,那么对新事物的理解应该作为其一项基本能力。

在Grounding DINO中,作者想要完成这样一项任务:根据人类文字输入去检测任意类别的目标,称作开放世界目标检测问题(open-set object detection)。

完成open-set object detection的关键是将language信息引入到目标的通用特征表示中。例如,GLIP利用对比学习的方式在目标检测和文字短语之间建立起了联系,它在close-set和open-set数据集上都有很好的表现。尽管如此,GLIP是基于传统的one-stage detector结构,因此还有一定的局限性。

受很多前期工作的启发(GLIP、DINO等),作者提出了Grounding DINO,它相对于GLIP有以下几点优势:

  • Grounding DINO 的transformer结构更接近于NLP模型,因此它更容易同时处理图片和文字;
  • Transformer-based detector在处理大型数据集时被证明有优势;
  • 作为DETR的变种,DINO能够完成end-to-end的训练,而且不需要NMS等额外的后处理。

许多现存的工作都是通过引入语言信息来实现closed-set到open-set场景扩展的。通常来说,close-set detector由三个重要部分组成:Backbone用于提取特征,Neck用于特征增强,Head用于bbox预测。让一个close-set detector在文字引导下识别新类别的关键是利用contrastive loss建立图像特征和文字特征的关联。为了帮助模型获得跨模态的能力,一些工作在图像、文字的特征融合方面做了一些尝试。如下图所示,特征融合可能发生在以下三个阶段中:neck (phase A), query initialization (phase B), 和 head (phase C)。举例来说,GLIP选择了phase A,而OV-SETR选择在phase B进行模型融合。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猛码Memmat

欢迎支持,随缘打赏 ~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值