论文笔记:Weakly Supervised Deep Detection Networks

本文深入探讨WSDDN网络架构,介绍如何通过region-level特征提取和双数据流进行图像分类与检测,阐述预训练网络调整及损失函数设计,强调网络在无groundtruth情况下的训练策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
主要方法:第一步提取region-level特征,通过在卷积层最顶端插入spatial pyramid pooling layer;然后网络被分成两个数据流从region-level特征后面开始。 第一个数据流跟每个独立区域的类别得分有关 ,进行识别的任务,,第二个数据流,通过计算各个区域概率贡献来进行对比,从而确定出包含有图片中最显著信息的region,这个叫做检测。
在这里插入图片描述
网络的结构上图所示。

  1. 预训练网络
    在 ImageNet ILSVRC 2012 data 上预训练网络。然后最终的网络结构是在此基础上进行修改。首先在最后一层CNN后面的pooling(ReLU后)换成SSP层( spatial pyramid pooling ),ssp层的输入是image x,还有区域R(一系列的区域,不只是一个),区域R通过SSW(SelectiveSearchWindows)或者EB(EdgeBoxes)的方法可以获得到,然后ssp产生一个特征向量用于后面的计算。SSP层后面跟着两个fc层,这两个fc层后面都分别有ReLU作为激活函数,然后在fc7将数据流分成两部分,就是我们说的分类数据流和检测数据流。

  2. 分类数据流
    接了一个C分类的fc,然后后面接softmax分类器,进行分类。可以预测出每个区域的类别,也就是R个。 即计算每个区域中各个类别的概率。
    在这里插入图片描述

  3. 检测数据流
    跟分类数据流的结构一模一样,都是采用了softmax分类器(求和区间不同),计算每个类别中各个区域的概率。
    看完公式,不清楚什么上面代表分类,而下面代表检测。但是论文是这么说的,第一条分支,可以预测哪个类跟这个区域有关系,而第二条分支可以选择包含信息最多的区域。这个真不明白是怎么选出来的区域。
    在这里插入图片描述

  4. 两个数据流的合并:
    采用内积的方式进行合并,进行标准非极大值抑制的方法(去除IOU>40%的区域)来获得最终的图像中的类特定检测的列表。与双线性结构的三点不同:其一利用不同的softmax分类器来打破两个流的对称性,其二,本文使用的是内积,而双线性结构使用的是外积,第三个不同之处在于,分数class(xcr)det(xdr)是针对特定图像区域r计算的,而不是针对网格上的一组固定的图像位置计算的。

  5. 图像水平分类得分。 到目前为止,WSDDN已经计算了区域级分数x r
    在这里插入图片描述

  6. 损失函数:
    在这里插入图片描述

  7. 空间惩罚项:由于我们没有groundtruth ,不能像fast rcnn 一样根据IOU 50%来选取排除定位框。因此我们遵循软规则化策略,该策略在训练期间惩罚最高得分区域和具有至少60%IoU的区域之间的特征图差异
    在这里插入图片描述

参考:
1 https://blog.youkuaiyun.com/u011534057/article/details/51219959
2 https://blog.youkuaiyun.com/baidu_17806763/article/details/58587807
3 https://blog.youkuaiyun.com/qq_35408241/article/details/83275656

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值