【论文阅读记录】Learning Region Features for Object Detection(1,待更)

本文探讨了目标检测中RoI Pooling的局限性,提出了一种全面可学习的区域特征提取方法。论文指出,当前方法在检测效果和参数预设上存在不足,并介绍了一个通用的区域特征提取观点和学习模块。与RoI Pooling相比,新方法表现更优,但后续实验中发现公式复杂,实际效果需进一步研究。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:

{

    最近在考虑现在这些目标检测网络用的RoI pooling方法。我认为RoI pooling方法至少有两个缺点:一是检测效果有限,目标尺寸和数量都受限;二是anchors和一些相关参数需要被预设,不支持全面的学习。

    所有这次找到了一篇有关的论文[2],想通过阅读找点灵感。

}

 

正文:

{

    在论文的第一节,作者介绍了目标检测的5个步骤:特征生成、区域提示生成、区域特征提取,区域识别和去重,并且提到了目前机器学习的趋势——深度学习。我记得就在几年前(2015年左右),深度学习的概念还没有普及,当时我还用openVC来做图像识别,就算使用神经网络也需要先提取特征。再看现在,深度网络直接搞定特征工程和分类识别的工作,但从这段看的论文来看,目标检测大多还需要使用RoI pooling方法(不过YOLO[3]则属于一步(One-stage)检测,没使用RoI pooling的方法,尺度和位置也算是由学习得来的)。

    作者说本论文涉及的方法是全面可学习的(fully learnable region feature extraction),给出了两个贡献:一是一种通用的区域特征提取的观点( General Viewpoint on Region Feature Extraction)(现在的RoI pooling方法大多都是特定的,无法通用),二是一种可学习的模块。另外,作者还说本论文的方法比RoI pooling方法的表现更出色,具体的后面会说到。

 

    在第二节,作者介绍了论文的第一个贡献。

    一开始,作者简介了现有RoI pooling方法的输入和输出,想看比较形象的介绍可以去[3]。

    之后,作者给出了用来代替RoI pooling公式的公式,见式(2)。

   

    其中,b代表一个bounding box,代表b中第k个bin对应的输出(在[3]中例子的情景下,k应该∈[1, 4]),p代表位置,代表一个support region,可以为RoI或整个图片(当为RoI时岂不就是一个b?),x(p)代表输入的特征图中p位置的数据,代表和b,p和x有关的k的权值。

    式(2)实际上是RoI pooling的一种通用形式。作者还给出了一些例子,例如在averaging pooling的情景下,式(2)的权值变成了式(3)的形式。

   

    其中为b中第k个bin中位置的总数(大小)(在这种情况下,如果考虑到,则就等于b中第k个bin)。

    值得注意的是,作者还介绍到了式(2)在一步检测的情况下的应用(按照我的理解,在YOLO里的结构下([2]中的图3),K=|k|=4096,=b=整个特征图,但这和论文里说的不一样,论文在这里没有给出详细的解释)。

}

 

结语:
{

    我大概看了一下后面的内容和实验结果,其有很多公式,结果似乎也不是非常好,所以我可能需要暂时放下这篇论文,把时间腾出来给书上的内容。

    参考资料:

    {

        [1]https://arxiv.org/pdf/1803.07066.pdf

        [2]https://arxiv.org/pdf/1506.02640.pdf

        [3]https://blog.youkuaiyun.com/auto1993/article/details/78514071

    }

}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值