【R-FCN】Object Detection via Region-based Fully convolutional Networks && light-head RCNN

R-FCN与Light-Head R-CNN在目标检测中的应用

最新推荐文章于 2024-12-15 05:00:00 发布

原创

最新推荐文章于 2024-12-15 05:00:00 发布 · 409 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍了R-FCN如何通过Region-based Fully convolutional Networks解决目标检测中的速度与精度问题，以及Light-Head R-CNN在此基础上的优化，实现了更快更准确的目标检测。R-FCN利用Position-sensitive Score Maps，而Light-Head R-CNN采用Large-Kernel Separable Convolution减少计算量，提高了检测效率。

一、R-FCN

1、概述

本文作者Jifeng Dai，Yi Li，Kaiming He，Jian Sun。本文主要是在特征的通道维度上分块后，每一块取空间上某一部分组合成新的feature map来解决分类需空间不变性和检测任务需空间敏感性的矛盾。

R-FCN是在faster RCNN基础上来改进的，主要是针对了fast/faster rcnn的在rpn中提取出的候选区都需要进行subnetwork【即会对每一个选出来的候选区都放到头部（faster rcnn中的fast rcnn网络部分）跑一遍】，这样会导致检测速度慢，速度慢就是因为ROI层后面的结构对不同的proposal是不共享的。本文就提出方法来想办法将ROI后面的结构往前挪。提出了position-sensitive score maps来处理图像分类时的translation-invariance和目标识别时的translation-variance。

2、网络结构

原本对于faster-rcnn-Resnet-101，Resnet-101有5个阶段，将第四阶段conv4_x的输出feature map作为RPN阶段的输入，用来提取出proposal regions，且使用第五阶段conv5_x网络部分作为分类和回归的子网络。
对于R-FCN来说，是不将conv5_x作为子网络，因此，在conv4_x的feature map直接经过conv5_x。具体子网络结构如下图所示。
在conv5_x之后，输出的feature map维度为2048【即w*k*2048】。R-FCN使用1*1卷积将其变为w*h*1024。
- 对于rfcn_cls和rfcn_bbox：<

最低0.47元/天解锁文章