深度学习【53】物体检测:Feature Pyramid Networks for Object Detection

FPN通过多尺度特征图融合提升物体检测性能,与R-CNN结合后mAP增加但速度下降。它包括自底向上路径、自顶向下路径和侧连接。自底向上路径由基础网络的阶段输出构成,自顶向下路径通过上采样与侧连接创建特征金字塔。实验表明,FPN在物体检测中表现出色。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

该论文的思想其实跟DSSD很像,都是使用多尺度特征图融合来提升物体检测的性能。这篇文章将特征金字塔网络结构(FPN)用在R-CNN系列上面后,mAP有不小提升,但是速度上倒是下降了一点。
我们首先看看什么是FPN,下图是FPN与目前的一些方法的比较:
这里写图片描述
图中(a)使用的图像金字塔进行物体检测;(b)YOLOv2使用的方法,只有网络最后一层用来检测;(c)SSD使用的方法,网络中有多层特征图用来检测;(d)FPN使用的方法,一样的有多层特征图用来检测,但是是经过上采样后与相应的层融合后再用来检测。

ok,现在看看细节。

Bottom-up pathway

Bottom-up pathway是由一系列的特征图构成,这些特征图是基础网络中每个阶段(特征图大小相同的属于同一阶段)中最后的输出。在resNet中,论文使用的是conv2,conv3,conv4,conv5,分别用{C2,C3,C4,C5}{C2,C3,C4,C5} 来表示,对应的步长为{4,8,16,32}。由于conv1的特征图太大,十分占内存,因此论文没有使用。

Top-down pathway and lateral connections

这是部分是一系列的特征图上采样模块。具体的先看图:
这里写图片描述

由图中的左边是Bottom-up pathway,右边就是Top-down pathway。Top-down pathway的最小特征图(对应P_5),来自Bottom-up pathway的最小特征图(resNet中的C5C5),中间还经过了一个1*1的卷积。然后对P5P5进行上采样,放大2倍;与此同时,Bottom-up pathway中的C4C4 经过一个1*1卷积后与经过上采样的P5P5相加得到P4P4。以此类推我们可以得到与{C2,C3,C4,C5}{C2,C3,C4,C5}相对应的{P2,P3,P4,P5}{P2,P3,P4,P5}

在得到{P2,P3,P4,P5}{P2,P3,P4,P5}后我们就可以用这些特征图当做RPN了(这样就有了多个RPN网络)。为了减少计算,每个特征图中的分类和回归参数是共享的。这样就要求${P_2,P_3,P_4,P_5}中的通道数要一样,论文设置为256个通道。

应用

在原始的RPN中,在基础网络的最后一层会加入一个3*3的卷积层,然后跟着两个1*1卷积(分别用来分类和回归),这样的设计我们称只为head。是否是物体的判断以及bbox的回归与一系列的固定框(anchors)相联系。这些anchor是一些预先固定好大小、宽高比的框。
我们用FPN代替了只有一个尺度的特征图作为FPN,同样后面也加入3*3和1*1卷积。同时特征金字塔的每一层的anchor没有使用multi-scale,而是每一层固定使用一个scale,以及不同的宽高比。具体的,{P2,P3,P4,P5}{P2,P3,P4,P5}对应的scale为{322,642,1282,2562,5122}{322,642,1282,2562,5122},然后每个scale有宽高比{1:2,1:1,2:1},这样一来总共有15个anchor。

我们利用IoU来确定训练样本,如果某一anchor与真实box的IoU大于0.7,则为正样本;小于0.3为负样本。我们并没有显示的将不同尺度的真实box与特征金字塔相关联起来,而是将真实box与anchor相关联,这其实已经将不同尺度的真实box与不同的特征金字塔层相关联起来了。

我们之前提到,用来分类和回归的参数是共享的。我们也尝试了没有共享的情况,但是发现精度都差不多。这表明,特征金字塔中不同的层有着相同的语义信息。这与基于图像金字塔的物体检测的优势相同。

实验结果

结果上还是很不错的。
这里写图片描述

### 回答1: 特征金字塔网络(Feature Pyramid Networks, FPN)是一种用于目标检测的神经网络架构。它通过在深层特征图上构建金字塔结构来提高空间分辨率,从而更好地检测小目标。FPN具有高效的多尺度特征表示和鲁棒性,在COCO数据集上取得了很好的表现。 ### 回答2: 特征金字塔网络(Feature Pyramid Networks,简称FPN)是一种用于目标检测深度学习模型。该模型是由FAIR(Facebook AI Research)在2017年提出的,旨在解决单一尺度特征不能有效检测不同大小目标的问题。 传统的目标检测算法通常采用的是滑动窗口法,即在图像上以不同大小和不同位置进行滑动窗口的检测。但是,这种方法对于不同大小的目标可能需要不同的特征区域来进行检测,而使用单一尺度特征可能会导致对小目标的错误检测或漏检。FPN通过利用图像金字塔和多层特征提取,将不同尺度的特征合并起来,从而达到对不同大小目标的有效检测。 FPN主要分为两个部分:上采样路径(Top-Down Pathway)和下采样路径(Bottom-Up Pathway)。下采样路径主要是通过不同层级的卷积神经网络(CNN)来提取特征,每层都采用了非极大值抑制(Non-Maximum Suppression,NMS)方法来选择最具有代表性的特征。上采样路径则主要是将低层特征进行上采样操作,使其与高层特征的尺寸对齐,并与高层特征相加,实现特征融合。 FPN在目标检测中的优势体现在以下几个方面。首先,FPN可以提高模型对小目标的检测能力,同时仍保持对大目标的检测准确度。其次,FPN的特征金字塔结构可以在一次前向传递中完成目标检测,减少了计算时间。最后,FPN对于输入图像的尺寸和分辨率不敏感,可以在不同分辨率的图像上进行目标检测,从而适应多种应用场景。 总之,FPN是一种在目标检测领域中得到广泛应用的模型,其特征金字塔结构能够有效地解决单一尺度特征不足以检测不同大小目标的问题,并在检测准确率和计算效率方面取得了不错的表现。 ### 回答3: 特征金字塔网络是一种用于目标检测深度学习模型,主要解决的问题是在不同尺度下检测不同大小的物体。在传统的卷积神经网络中,网络的特征图大小会不断减小,因此只能检测较小的物体,对于较大的物体则无法很好地检测。而特征金字塔网络则通过在底部特征图的基础上构建一个金字塔状的上采样结构,使得网络能够在不同尺度下检测不同大小的物体。 具体来说,特征金字塔网络由两个主要部分构成:共享特征提取器和金字塔结构。共享特征提取器是一个常规的卷积神经网络,用于提取输入图像的特征。而金字塔结构包括多个尺度的特征图,通过上采样和融合来获得不同尺度的特征表示。这些特征图之后被输入到后续的目标检测网络中,可以通过这些特征图来检测不同尺度的物体。 特征金字塔网络可以有效地解决目标检测任务中的尺度问题,并且在许多实际应用中表现出了优异的性能。例如,通过使用特征金字塔网络,在COCO数据集上得到的目标检测结果明显优于现有的一些目标检测算法。 总之,特征金字塔网络是一种非常有效的深度学习模型,可以处理目标检测任务中的尺度问题,提高模型在不同大小物体检测精度。它在实际应用中具有很高的价值和应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值