FPN特征金字塔结构学习笔记

FPN特征金字塔网络
本文介绍了一种新的特征金字塔网络(FPN),它利用深度卷积网络的固有金字塔结构,以边际额外成本构建具有高级语义特征的地图。该方法在多个应用中表现出显著改进,并在COCO检测基准上实现了最先进的单模型结果。

FPN特征金字塔结构学习笔记

Feature Pyramid Networks for Object Detection

Abstract

特征金字塔是识别系统中的基本组件,用于检测不同尺度的对象。但最近的深度学习对象检测器已经避免了金字塔表示,部分原因是它们是计算和内存密集型的。在本文中,我们利用深度卷积网络固有的多尺度金字塔层次结构来构造具有边际额外成本的特征金字塔。开发了一种具有横向连接的自顶向下架构,用于在所有尺度上构建高级语义特征图。这种被称为特征金字塔网络(FPN)的体系结构在几个应用中作为通用特征提取器显示出显著的改进。在一个基本的更快的R-CNN系统中使用FPN,我们的方法在COCO检测基准上实现了最先进的单模型结果,没有花里胡哨,超过了所有现有的单模型参赛作品,包括来自COCO 2016挑战赛获胜者的作品。此外,我们的方法可以在GPU上以6 FPS的速度运行,因此是一种实用而准确的多尺度对象检测解决方案。代码将向公众开放。

1. Introduction

识别不同尺度的物体是计算机视觉的一个基本挑战。基于影像金字塔构建的特征金字塔(简称为特征影像金字塔)构成了标准解决方案的基础1。这些金字塔是比例不变的,因为对象的比例变化是通过移动其在金字塔中的级别来抵消的。直观地说,该属性使模型能够通过在位置和金字塔级别上扫描模型来检测大范围比例的对象。

image-20221003204534584

特征图像金字塔在手工设计特征的时代被大量使用[5,25]。它们是如此重要,以至于像DPM [7]这样的物体检测器需要密集标度采样来获得良好的结果(例如,每个倍频程10个标度)。对于识别任务,工程特征具有

很大程度上被深度卷积网络(ConvNets) [19,20]计算的特征所取代。除了能够表示更高层次的语义,ConvNets还对尺度的变化更具鲁棒性,从而有助于根据单个输入尺度计算的特征进行识别15,11,29。但是即使有这种鲁棒性,仍然需要金字塔来获得最准确的结果。ImageNet [33]和COCO [21]检测挑战中所有最近的顶级条目都使用了特征化图像金字塔的多尺度测试(例如[16,35])。特征化图像金字塔的每一层的主要优点是,它产生多尺度特征表示,其中所有层都是语义强的,包括高分辨率层

然而,特征化图像金字塔的每一层都有明显的局限性。推理时间大大增加(例如,增加了四倍[11]),使得这种方法对于实际应用不切实际。而且,训练深入图像金字塔上的端到端网络在内存方面是不可行的,因此,如果被利用,图像金字塔仅在测试时间使用[15,11,16,35],这在训练/测试时间推断之间产生不一致。由于这些原因,Fast和Fast R-CNN[11,29]选择在默认设置下不使用特征化图像金字塔。

然而,影像金字塔并不是计算多尺度要素制图表达的唯一方式。深度ConvNet逐层计算要素等级,对于子采样图层,要素等级具有固有的多比例金字塔形状。这种网络内特征等级产生不同空间分辨率的特征地图,但是引入了由不同深度引起的大的语义差距高分辨率地图具有低级特征,这损害了它们用于物体识别的表示能力

单触发探测器(SSD) [22]是首次尝试使用ConvNet的金字塔特征层次,就好像它是一个特征化的图像金字塔(图1©)。理想情况下,SSD风格的金字塔将重用前向传递中计算的不同图层的多尺度要素地图,因此是免费的。但是为了避免使用低级特征,SSD放弃了重新使用已经计算的层,而是从网络中的高层(例如,VGG网的conv 4 3[36])开始构建金字塔,然后添加几个新层。因此,它错过了重用要素等级的高分辨率地图的机会。我们证明了这些对于探测小物体的重要性

本文的目标是自然地利用ConvNet功能层次的金字塔形状,同时创建一个在所有尺度上都具有强大语义的功能金字塔。为了实现这一目标,我们依靠一种架构,该架构通过自上而下的路径和横向连接将低分辨率、语义强的特征与高分辨率、语义弱的特征相结合(图1(d))。结果是一个在所有级别都具有丰富语义的特征金字塔,并且是从单个输入图像尺度快速构建的。换句话说,我们展示了如何在不牺牲表现能力、速度或内存的情况下创建可用于替换特征影像金字塔的网络内要素金字塔

采用自顶向下和跳过连接的类似架构在最近的研究中很流行[28,17,8,26]。他们的目标是生成一个高分辨率的单一高级特征图,在此基础上进行预测(图2顶部)。相反,我们的方法利用该体系结构作为特征金字塔,其中预测(例如,对象检测)在每个级别上独立进行(图2底部)。我们的模型呼应了一个特征化的图像金字塔,这是没有在这些

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值