传统的目标检测模型存在的问题

一般来说,传统的目标检测模型可以分为两组:一级检测器和两(多)级检测器。

一级检测器通过对一组预定义锚框进行密集分类,直接对边界框进行分类和回归,每个可能包含一个对象,或者密集地搜索对象的几何实体,例如角、中心点或框。相反,大多数两阶段检测器首先提出与类别无关的边界框,这些边界框汇集到固定大小的感兴趣区域(RoI)特征,并在第二阶段由子网进行分类。两阶段探测器扩展到多阶段探测器,其中额外的阶段改进了前一阶段的预测。该领域的一项独特工作是DETR,它使用Transformer架构将目标检测视为集合预测问题。请注意,这些对象检测器中的分类器是在训练集中共同学习的,因此只有在训练时看到的对象才能在推理期间被检测到,因此称为封闭词汇对象检测。

几乎在所有多模态目标检测或者分割,或者OVOD的论文中,都会提到这么一个观点,那就是目前的传统的目标检测模型无论是two-stage目标检测模型,例如RCNN,Faster-RCNN,或者one-stage,例如YOLO目标检测模型,都存在以下的问题:

那就是传统的目标检测模型通常被训练来预测一组固定的预先确定的对象类别,这限制了它们在实际应用中的可用性,因为需要额外的标记数据来概括新的视觉概念和领域。

1.预定义类别限制:

  • 传统的目标检测模型通常被训练来预测一组固定的预先确定的对象类别,这限制了它们在实际应用中的可用性,这意味着它们只能检测训练数据中出现过的类别,想要预测新类别,就需要额外的标记数据来概括新的视觉概念和领域,费时费力。例如,我想识别皮卡丘,但是原来训练的数据里就没有皮卡丘这类数据,那么我的模型无论如何也识别不了皮卡丘,想要识别必须我们自己添加数据并且训练。
  • 多模态目标检测能够处理开放词汇(open-vocabulary),即检测模型未曾见过的类别,通过语言描述来识别新类别。

2.上下文信息缺失:

  • 传统模型可能无法充分利用图像中的上下文信息,这在识别具有复杂背景或需要理解场景关系的对象时尤为重要。
  • 多模态目标检测可以通过语言描述来增强对上下文的理解,从而提高检测的准确性。

3.交互性不足:

  • 传统目标检测模型在处理图像时,往往缺乏对图像内容的交互式理解。
  • 多模态模型可以通过视觉-语言对齐机制,更好地理解图像内容与语言描述之间的交互关系。

4.灵活性和泛化能力:

  • 传统模型在面对新场景或新对象时,泛化能力有限,可能无法准确检测。
  • 多模态目标检测由于结合了语言信息,可以更灵活地适应新场景,提高泛化能力。

5.数据依赖性:

  • 传统目标检测高度依赖于大量标注数据,且这些数据需要与模型训练时的类别相匹配。
  • 多模态目标检测可以利用更广泛的数据源,如图像-标题对、维基百科文章等,这些数据不需要严格的类别标注。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值