FPN:Feature Pyramid Networks for Object Detection

本文介绍用内网络特征金字塔代替特征化图像金字塔,不牺牲速度和存储空间。阐述其原理,指出存在语义鸿沟问题,采用自上而下路径和横向连接结合强弱语义特征。还介绍金字塔构建、RPN和Fast R - CNN中特征金字塔的应用及横向连接的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文参考资料

https://www.cnblogs.com/fangpengchengbupter/p/7681683.html
https://blog.youkuaiyun.com/u014380165/article/details/72890275
本文主要介绍如何使用内网络特征金字塔代替特征化的图像金字塔,而不牺牲速度以及存储空间,并且创建的金字塔在所有尺度上都有很鲁棒的语义特征

原理:

深度卷积网络本身就是这层计算特征,特征本身就是可以分层的,再加上网络中有降采样层(pooling),分层结构又具有多尺度金字塔形状的。

存在的主要问题:

内网特征层次产生了不同的空间分辨率的特征图,造成不同深度特征图的语义鸿沟,因此必须要合理结合低分辨率(定位不准确)强语义特征和高分辨率弱语义特征。

采用的基本方法是:自然利用卷积网络的层次结构,通过自上而下 的路径已经横向连接来实现合理结合低分辨率强语义特征和高分辨率弱语义特征。

以前的方法是为了产生高分辨率高级别的语义特征图,在此基础之上做预测。但是本文是利用了金字塔结构,在每个层次上单独进行预测。

相关工作

SSD:是第一个试图利用卷积网络层次的算法,在理想情况下,SSD会重复利用在前向传播过程中不同层多尺度特征图。但是SSD为了不利用低级别特征(意味着高分辨率),SSD放弃已经计算好的层,并且从网络高层开始建立金字塔,再加入新层进去,所以不能重复使用特征层次更高分辨率的特征图(这对于检测小目标是很重要的),图1 中(c)。
早起快速构建金字塔:计算稀疏采样后的金字塔,然后进行插值。
早起卷积网络使用多层结果的方法:FCN在每个尺度上进行分类得到部分分数,部分分数相加计算语义分段。HyperNet、ION等等将多层的特征连接起来(特征求和),然后进行预测。SSD、MS-CNN直接在特征层次中多层上预测目标,不需要结合分数。
最近兴起的横向连接,在每一层上单独进行预测
在这里插入图片描述
a)先对图像进行缩放,在不同尺度的图像上提取特征,每个尺度特征图都要进行预测。

(b)图像不缩放,但是可以提取不同尺度的特征图(映射过程),只在最后的尺寸进行预测

(c)图像不缩放,但是可以提取不同尺度的特征图(映射过程),每个尺度上进行预测,一种多尺度融合方式

(d)图像不缩放,但是可以提取不同尺度的特征图(映射过程),特征图有一个向下传播的过程(高分辨率+高层级特征)并且有横向连接,每层独立预测
图像的输入:任意大小的单一尺寸图像。输出:以全卷积的方式输出多个级别的比例尺寸特征图,该过程独立于卷积结构。

金字塔构建

金字塔构建过程有3个:自下而上的通路,自上而下的通路以及横向连接,结构如下:

自下而上的通路(一般卷积结构)。主干卷积网络的前馈计算。计算由不同尺度上的特征图构成的特征层次,缩放步长选择2(应该是pooling造成的)。有很多层输出尺寸是一样的(有很多卷积层只有卷积、relu,没有池化),称这些层“在相同网络阶段中”,每一个网络阶段定义为一个金字塔等级,将每一等级最后一层的输出作为特征图的参考集(最深的层次语义最强)
自上而下的通路。上采样金字塔较高层的低分辨率(对应文中空间粗糙)语义强的特征图生成很高分辨率的特征。通过横向连接从bottom-up通路中特征被增强。每个横向连接融合bottom-up通路和top-down通路中相同空间尺寸的特征图。对于top-down通路,先上采样特征图(方法是最近邻),因子为2,采样之后和相应的bottom-up图(bottom-up图进行11卷积操作,降低通道数)进行融合(融合方式:逐元素相加)。该过程会一直迭代直到最优分辨率特征图生成。在C5(最高层)使用11卷积生成最粗糙的图,迭代完成后,在每个融合的图上进行3*3的卷积,缓解上采样的混叠效应。金字塔每层特征的维度要固定,因为公用分类器。
在这里插入图片描述

RPN中特征金字塔

RPN:33卷积网络在单一尺度卷积特征图上一滑动窗的方式生成锚框。后面紧跟两个孪生11卷积用于分类和回归

使用FPN替代单一尺度卷积特征图。首先金字塔每一层也要进行33卷积,后面紧跟两个孪生11卷积(与RPN保持一致,这个操作也叫做网络头),卷积参数共享(意味着金字塔共享相同的语义级别)。RPN是Faster
R-CNN中用于区域选择的子网络,RPN是一个1313256的特征图上应用9种不同尺度anchor,本文另辟蹊径,把特征图弄成多尺度的,然后固定每种特征图对应的anchor尺寸,也就是说每一个金字塔层级应用了单尺度的anchor,仍采用三种比例。

Fast R-CNN中的金字塔

FPN主要和RoI结合,需要分配不同尺度的Rol给金字塔层级。此时特征金字塔可以视为从图像金字塔产生的(同一目标的在不同尺度条件下各自生成特征)。采用基于区域提名检测器的分配策略,分配一个宽为w,高为h的RoI给特征金字塔的层级Pk,分配如下:
在这里插入图片描述
224是ImageNet规范的与训练大小,k0是目标层级(就是没有使用这种方法时使用那一层特征),其对应的RoI尺寸是224*224。等式1说明如果RoI尺度变小,应该被映射到更高分辨率的层级中去。

Fast R-CNN的网络头是分类器和边界框回归器(其实就是分类层),同样,头在所有层级上的RoI要共享参数。
横向连接的重要性:top-down金字塔由强大的语义特征,但是特征位置并不准确,因为经过了多次的上采样和下采样。通过横向连接直接从bottom-up图更精确的等级直接连接到top-down图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值