Feature Pyramid Networks for Object Detection 阅读笔记

本文介绍了一种新的物体检测方法——Feature Pyramid Networks (FPN),它利用深度卷积网络固有的多尺度、金字塔结构,通过引入自顶向下的结构与横向连接来构建不同尺度上的高级语义特征图。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Feature Pyramid Networks for Object Detection 阅读笔记

标签(空格分隔): 论文笔记 物体检测


该论文主要提出了top-down的思想,对图像进行进行多尺度物体检测,尝试解决尺度不变性的问题

Feature pyramids(多尺度特征金字塔)在传统的计算机视觉算法中进场被用到,而在深度学习中,都尽量避免使用多尺度相关的算法,因为一旦涉及多尺度,计算量将成倍增加。

在这篇论文中,作者认为在卷积网络中的每一层,就对应一个尺度的特征,然而在目前的网络中,只是用到了最后一层尺度的特征,于是作者提出了Feature Pyramid Network(FPN). FPN结构在进行物体检测时,不光用到了最后卷积层的feature map,同时也将之前层的feature map结合起来。该结构是结合了Faster RCNN。

  1. In this paper, we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost.
  2. A top-down architecture with lateral connections is developed for building high-level semantic feature maps at all scales.

作者给出了目前四种常见利用多尺度信息的方法:

image_1bvoua5t51ihe1i78gdt93s19qt9.png-215.8kB

(a)该方法是现将输入图像进行resize后喂入算法,进行分类和回归,早期的深度学习算法基本上都是这样做的;
(b)这是目前最常见的,将图像送入网络,去最后一层的feature map进行分类回归;
(c)这是利用每一层的feature map进行分类回归最后,进行融合,这种形式代表性的是SSD,但是SSD中,是在基础网络中添加了几个卷积层,然后添加的几个卷积层的feature map进行分类回归;
(d)这是作者提出来的。

这篇论文给出了两个关键的词语bottom-uptop-down
bottom-up:就是底层信息向高层传播,在深度学习中,网络结构是以层级结构进行排布的,图像从输入到输出,信息是由底层到高层传播的,所谓底层信息就是图像的轮廓,纹理等底层的形状信息;所谓高层信息就是图像的类别,物体的关键部位等高层的语义信息,故bottom-up就是网络的前向传播过程。
top-down:就是高层信息往底层传播,这里的信息是每层的fearure map而非梯度

在这里要解释为什么会存在top-down这样的操作?

因为图像需要检测比较小的物体,直接说就是细粒度的问题,这篇论文(Beyond Skip Connections: Top-Down Modulation for Object Detection)给了个说法,它是这样解释的:高层信息往往语义层面的,是粗糙的,对物体的性状描述是不细腻的;而底层信息是对图像的形状描述是精致的,于是在进行微小物体检测时,最好的方法,是将高层的语义信息和底层的形状信息结合起来。

再来说说,作者是怎么个结合的。。

image_1bvovnvgc14r134r1jetk0i132um.png-60kB

(1)左边箭头依次朝上是bottom-up, 右边的箭头朝下是top-down的过程
(2)网络传至卷积最后一层之后,进行上采样(caffe 中进行反卷积操作)还原层上一层的尺度,然后 与上一层的feature map相加,如此下去;
(3)作者还提出为了保证top-down过程中,feature map的channel一致,进行了 1×1 的卷积操作

Github:https://github.com/unsky/FPN-caffe
网络可视化:http://ethereon.github.io/netscope/#/editor

### 回答1: 特征金字塔网络(Feature Pyramid Networks, FPN)是一种用于目标检测的神经网络架构。它通过在深层特征图上构建金字塔结构来提高空间分辨率,从而更好地检测小目标。FPN具有高效的多尺度特征表示和鲁棒性,在COCO数据集上取得了很好的表现。 ### 回答2: 特征金字塔网络(Feature Pyramid Networks,简称FPN)是一种用于目标检测的深度学习模型。该模型是由FAIR(Facebook AI Research)在2017年提出的,旨在解决单一尺度特征不能有效检测不同大小目标的问题。 传统的目标检测算法通常采用的是滑动窗口法,即在图像上以不同大小和不同位置进行滑动窗口的检测。但是,这种方法对于不同大小的目标可能需要不同的特征区域来进行检测,而使用单一尺度特征可能会导致对小目标的错误检测或漏检。FPN通过利用图像金字塔和多层特征提取,将不同尺度的特征合并起来,从而达到对不同大小目标的有效检测。 FPN主要分为两个部分:上采样路径(Top-Down Pathway)和下采样路径(Bottom-Up Pathway)。下采样路径主要是通过不同层级的卷积神经网络(CNN)来提取特征,每层都采用了非极大值抑制(Non-Maximum Suppression,NMS)方法来选择最具有代表性的特征。上采样路径则主要是将低层特征进行上采样操作,使其与高层特征的尺寸对齐,并与高层特征相加,实现特征融合。 FPN在目标检测中的优势体现在以下几个方面。首先,FPN可以提高模型对小目标的检测能力,同时仍保持对大目标的检测准确度。其次,FPN的特征金字塔结构可以在一次前向传递中完成目标检测,减少了计算时间。最后,FPN对于输入图像的尺寸和分辨率不敏感,可以在不同分辨率的图像上进行目标检测,从而适应多种应用场景。 总之,FPN是一种在目标检测领域中得到广泛应用的模型,其特征金字塔结构能够有效地解决单一尺度特征不足以检测不同大小目标的问题,并在检测准确率和计算效率方面取得了不错的表现。 ### 回答3: 特征金字塔网络是一种用于目标检测的深度学习模型,主要解决的问题是在不同尺度下检测不同大小的物体。在传统的卷积神经网络中,网络的特征图大小会不断减小,因此只能检测较小的物体,对于较大的物体则无法很好地检测。而特征金字塔网络则通过在底部特征图的基础上构建一个金字塔状的上采样结构,使得网络能够在不同尺度下检测不同大小的物体。 具体来说,特征金字塔网络由两个主要部分构成:共享特征提取器和金字塔结构。共享特征提取器是一个常规的卷积神经网络,用于提取输入图像的特征。而金字塔结构包括多个尺度的特征图,通过上采样和融合来获得不同尺度的特征表示。这些特征图之后被输入到后续的目标检测网络中,可以通过这些特征图来检测不同尺度的物体。 特征金字塔网络可以有效地解决目标检测任务中的尺度问题,并且在许多实际应用中表现出了优异的性能。例如,通过使用特征金字塔网络,在COCO数据集上得到的目标检测结果明显优于现有的一些目标检测算法。 总之,特征金字塔网络是一种非常有效的深度学习模型,可以处理目标检测任务中的尺度问题,提高模型在不同大小物体的检测精度。它在实际应用中具有很高的价值和应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值