Receptive Field Block Net for Accurate and Fast Object Detection(RFB)
paper code
Abstract
受人类视觉系统感受野结构的启发,我们提出了一种新的感受野( RFB)模块,该模块考虑了感受野的大小和偏心度之间的关系,以提高特征的可分辨性和鲁棒性。
Motivation
1.过深层的网络提取特征带来过大的计算消耗和缓慢的推理速度。
2.在人类视觉皮层中,群体感受野(population Receptive Field)的大小是视网膜定位图中偏心率的函数,虽然不同的图之间不同,但它随着每个图中的偏心率而增加。它有助于突出更接近中心的区域的重要性,并提高对微小空间位移的不敏感性。
3.现有的特征融合模块没有考虑感受野中离心率的影响,某一感受野中所有像素对输出响应的贡献是相同的,其中的重要信息没有被强调。
Core idea
RFB是一个多分支卷积块。它每个分支的内部结构可分为两个部分:多分支卷积层和后续的多分支池化/膨胀卷积层。
其结构主要有两个特点:1、不同尺寸卷积核的卷积层构成的多分枝结构,类似于Inception结构。在下图的RFB结构中也用不同大小的圆形表示不同尺寸卷积核的卷积层。2、引入了dilated卷积层,主要作用也是增加感受野,在下图的RFB结构中用不同rate表示dilated卷积层的参数。在RFB结构中最后会将不同尺寸和rate的卷积层输出进行concat,达到融合不同特征的目的。在