【OVOD、OSOD、OWOD】

在这里插入图片描述

介绍

Open-Set Object Detection(开放集目标检测)、Open Vocabulary Object Detection(开放词汇目标检测)以及Open World Object Detection(开放世界目标检测)是计算机视觉领域中处理目标检测任务的三种不同方法。

区别

(1)未知类别的处理方式

Open-Set Object Detection:该方法能够识别图像中的已知目标对象,并将其与不属于已知类别的未知目标对象区分开来。它侧重于将未知对象标记为 “unknown”,以避免将它们错误地检测为已知目标对象。

Open Vocabulary Object Detection:该方法要求模型超越训练阶段有限的基类(base classes)标签,从而在推理阶段检测由无界(开放)词汇表定义的新类别。它利用视觉-语言模型等技术,将文本描述与图像特征相结合,实现对新类别的检测。

Open World Object Detection:该方法不仅将未知类别识别为“unknown”,还具备增量学习未知类别的能力。它能够在识别出新类别后,通过增量学习的方式将这些新类别纳入已知类别范畴,同时不会忘记之前已经学会的类别。

(2)技术特点

Open-Set:主要依赖于训练阶段学习到的特征表示来区分已知和未知类别。

Open Vocabulary:通常需要一个双路径模型,包括视觉对象检测器和文本编码器,利用视觉-语言模型等技术提升性能。

Open World:在Open-Set的基础上,增加了增量学习的能力,能够持续更新和扩展已知类别集合。

(3)应用场景

Open-Set:适用于需要识别已知类别并拒绝未知类别的场景,如安全监控、自动驾驶中的障碍物检测等。

Open Vocabulary:适用于需要识别和定位多样化对象类别的场景,如图像搜索、智能相册整理等。

Open World:更适用于需要不断学习和适应新环境的场景,如智能家居、机器人导航等。

(4)联系

  • 目标相似性:三者都旨在提升目标检测模型的泛化能力,使其能够处理更多样化的对象类别和场景。

  • 技术融合:在实际应用中,这三种方法的技术可以相互融合。例如,可以先使用 Open-Set 方法识别出已知和未知类别,然后利用 Open Vocabulary 方法对未知类别进行进一步识别和定位;同时,Open World 方法可以在此基础上实现增量学习,不断更新和完善模型。

  • 挑战与机遇:三者都面临着计算负担、部署复杂性等挑战。然而,随着深度学习、视觉-语言模型等技术的不断发展,这些挑战也为研究者提供了更多的创新机遇和可能性。


腾讯开源YOLO-World,超轻量级开集目标检测,20倍加速(附论文及源码)

腾讯开源YOLO-World,超轻量级开集目标检测,20倍加速(附论文及源码)(2024年02月02日)

https://arxiv.org/abs/2401.17270

https://github.com/AILab-CVC/YOLO-World

在这里插入图片描述

在推理过程中,可以移除文本编码器CLIP,并将文本嵌入重新参数化为RepVL-PAN的权重,以实现高效部署。

可以预先编码提示或类别以构建离线词汇,然后无缝地将其整合到检测器中。

在这里插入图片描述
在过去的几十年中,传统的目标检测方法可以简单地分为三类,即基于区域的方法、基于像素的方法和基于 Query 的方法。

当输入文本是标题或参照表达式时,作者采用简单的 n-gram 算法来提取名词短语,然后将它们输入到文本编码器中。

腾讯开源YOLO-World,超轻量级开集目标检测,20倍加速(附论文及源码)

YOLO-World——实时开集目标检测

YOLO-World技术小结

Hugging Face

openai/clip-vit-base-patch32

huggingface transformers预训练模型如何下载至本地,并使用?


开放词汇对象检测综述

开放词汇对象检测综述(2024年07月04日)

开放词汇对象检测(Open-Vocabulary Object Detection,简称 OVOD)

2.1 词汇无关性

能够识别和检测训练集中未出现的对象类别,使得模型在面对新环境和新任务时表现更佳。

2.2 灵活性

模型可以通过简单地提供新的文本描述或标签来检测新的对象,而无需重新训练模型。

2.3 多模态学习

利用图像和文本的多模态数据进行训练,使得模型能够理解和关联视觉和语言信息。

主要技术

  • 预训练视觉模型
  • 多模态嵌入(CLIP)
  • 文本驱动的检测
  • 微调与适应:尽管目标是开放词汇检测,模型仍然需要通过微调与适应训练数据集,提升对常见对象的检测性能。

相关技术

  • 自监督学习
  • 零样本学习
  • 增量学习
  • 图像-文本对齐
  • 多任务学习

南洋理工最新综述!开放世界目标检测大观~

南洋理工最新综述!开放世界目标检测大观~(2024年10月20日)

开放世界目标检测(OWOD)

https://github.com/ArminLee/OWOD_Review

Li Y, Wang Y, Wang W, et al. Open world object detection: a survey[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024.

在这里插入图片描述

开放集识别(OSR)、增量学习对象检测(ILOD)、开放词汇对象检测(OVOD)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

灾难性遗忘

在这里插入图片描述


开集目标检测(Open-Set Object Detection)算法是什么?

开集目标检测(Open-Set Object Detection)算法是什么?(2024年11月19日)

开集目标检测的主要目标是使模型具备识别未知目标的能力。这个能力对于动态环境中不断出现的新类别或物体尤其重要。例如,在自动驾驶汽车中,可能会出现训练数据中未曾出现的新型交通标志或行人,开集目标检测能够帮助系统正确处理这些新情况。

在这里插入图片描述


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值