2018年arxiv object detection论文阅读-持续更新

最新推荐文章于 2024-12-05 14:01:42 发布

原创最新推荐文章于 2024-12-05 14:01:42 发布 · 964 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#Object detection

Object detection 专栏收录该内容

3 篇文章

订阅专栏

本文总结了三篇arxiv论文在目标检测领域的研究，包括一种无锚点区域提议网络改进Faster R-CNN在文本检测中的应用，探索多分支和高层语义网络提升行人检测性能，以及提出ExFuse增强特征融合以优化语义分割。

1. An Anchor-Free Region Proposal Network for Faster R-CNN based Text Detection Approaches

论文原文见arxiv.

中心思想

对于尺度变化比较大的数据集来说，Faster RCNN的RPN阶段anchor的设计比较复杂，同时anchor只能预测水平的检测框，而不能预测带旋转角度的检测框，因此本文作者放弃了在RPN阶段使用anchor，在RPN阶段直接使用一个点(同样也是用3x3的滑动窗在conv4特征图上滑动得到)回归出bounding box的四个角点坐标，backbone是FPN版本的RPN网络，在coco和icdar上都取得了比FPN版Faster RCNN更好的效果。感觉类似于east的思想。
这里写图片描述

其它

文章也给出了一些FPN在文本检测任务中的实现细节：
1. 对于FPN的多个分支，每个GT只会分配给某一个分支，其他的分支都会将该GT忽略掉（感觉是类似于SNIP的思想）；
2. 这篇文章是在 coco, icdar 上进行文本检测，作者说 FPN 没必要使用 P5 和 P6，因为文本检测中一般没有这么大的图像，所以文章将 GT 按照短边的尺寸大小分为了三种，according to their shorter side lengths, i.e., small text (4px-24px), medium text (24px – 48px) and large text (> 48px)，然后分别送入不同的分支进行训练
3. 对于RPN的每一个分支，batch 仍然是256,包含128个正样本和128个负样本
4. 在RPN阶段将多个分支的的proposal融合起来的方法：原文中有三个分支，每个分支直接取score最高的2000个Proposal，然后三个分支的Proposal合起来就有6000，再进行NMS（threshold=0.7）,取score最高的300个Proposal。

2. Exploring Multi-Branch and High-Level Semantic Networks for Improving Pedestrian Detection

论文原文见arxiv.

中心思想

对于多分支网络，如SSD，使用浅层特征的时候往往受到一个困扰：浅层特征语义信息太弱，另外过于的noisy，预测的效果不好，而深层特征的空间分辨率太低，因此作者提出了两种解决思路。
1. 方法一：想办法提高浅层特征的语义信息，作者将浅层特征再次进行多次卷积（只是不进行pooling,故分辨率不会降低），提高其语义信息，直到浅层特征与深层特征的深度一致时，再与对应的浅层特征融合一下，进行预测，如下图1和图2的basic MHN，对浅层特征额外增加的卷积可以和backbone上获得深层特征过程中的卷积共享，所以并不会额外的增加参数量，这一方法也可以结合FPN的思想，把多分支的特征从上到下反向融合起来再进行多段预测。
2. 方法二：想办法提高深层特征的空间分辨率，由于深层特征往往是为了获得更大的感受野而进行了多次Pooling操作，但实际上如果采用空洞卷积（dilated convolution）同样也可以获得更大的感受野，而不需要进行Pooling操作降低空间分辨率。所以作者删掉了conv(i-1)之前的Pooling层，如下图2中的(d) 所示，然后用空洞卷积取代了该Pooling层之后的卷积层，这样对于branch-large和branch-medium来说，少了一个Pooling操作，分辨率就相当于提高了一倍。再在多端进行检测，就可以获得更好的效果。
另外，这篇文章的出发点可以在Sun Jian刚发的Exfuse文章中找到（见下文）。
这里写图片描述