Weakly Supervised Object Detection via Object-Specific Pixel Gradient

本文介绍了一种基于图像梯度的弱监督目标检测方法,通过OPG图定位目标,采用迭代组件挖掘和精确边界框推断提高检测精度,并设计平均最大池化层解决CNNs中maxpooling的问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

paper:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8333805

简介:目前先有的弱监督目标检测方法大多将其作为一个多示例问题,产生候选区域,然后分类器判断类别的方式进行获得位置信息。本文作者利用图像梯度,提出了一种新的定位目标框的方式。

1.在目标分类网络中,目标所在区域反映到特征上是显著的,基于这个出发点,展开。

首先定义{\rm{x}} \in {​{\rm{R}}^{H \times W}}是输入图像,y \in {\{ 0,1\} ^k}是图像级的标签,k是图像类别数量,H是图像的高度,W是图像的宽度。第k类目标的得分表示为s_k.训练集的平均图片个平均分数为{\rm{\bar x}}{\rm{\bar s}}.所以,{\rm{\bar s_k}}是第k类的平均得分。构建损失函数:

最小化式1使 {​{\rm{s}}_k} \to {\bar s_k}

图像x的梯度为

展开;

这儿,z_l是第l层的特征图,\nabla {d_k}表示第k类得分对图像x的梯度。图像梯度如图三所示。

2. Iterative Component Mining

首先将OPG图的像素分为g组,根据相应加权(这其实没搞懂怎么做的),然后使用一个阈值为\gamma后验分布将每一组分配给第f个component。最后,用最小包围框提取对象的bounding box。

作者认为这仍然是不足的。为此,迭代地屏蔽已经找到的组件,并用一种新的ICM方案挖掘潜在的对象(或组件)

此处, \nabla D为了累计梯度, t表示第t次迭代。

\nabla D就是OPG。

3. Inferring Precise Bounding Box


特定对象类别的边界框从对应的OPG映射中获得。直观地说,OPG映射中的高值对应于此图像中对象的关键组件。然而,OPG图中的低值并不一定对应于背景,如图2所示。在某些情况下,响应得分很低,因为接受域会在目标对象最重要的区域触发,这会使该对象不那么重要的区域的响应退化。这是在人类视觉系统中经常观察到的现象。接下来,引入一种迭代的方法来推断一个精确的边界框。 首先对\nabla D阈值化处理。

然后,产生一个新的掩码图像

 

\chi有三个选择,{\rm{\hat x}}是均值,\xi是0到255的随机数。然后更新模型

这儿 

 4 Average and Max Pooling Layer

到目前为止,所提出的OPG图很容易找到物体的定位特征,如头部的cat。然而,对于物体的定位和检测,我们需要找出物体的所有组成部分,例如猫的身体。这个问题主要是由于CNNs中常用的max pooling的操作。在max池中,只有每个池区域的最大激活被维护并传播到下一层,这通常会忽略给定对象的非显著组件,所以作者设计了平均最大池化(AMP)。

u和v为AMP层的输入和输出。w = \{ {u_{ij}}|{u_{ij}} \in u,{u_{ij}} > \xi ,1 \le i \le h,1 \le j \le w\},h和w是u的长度和宽度。定义

导数为;

 实验结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值