OverFeat论文解析

原创

已于 2022-05-12 23:27:59 修改 · 1.4k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #神经网络 #算法

于 2020-07-18 16:16:29 首次发布

本文深入解析OverFeat模型，一种基于卷积神经网络统一处理分类、定位和检测任务的方法。通过改进特征提取和引入多任务学习，OverFeat在ILSVRC竞赛中取得优异成绩。

文章目录

一、介绍
二、拟解决的问题
- 1. 特征提取
- 2. 视觉任务
三、解决方法
四、分类任务
五、定位任务
六、检测任务
七、总结
八、参考文献

本篇博客将要解析的论文是 OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks，论文地址为： https://arxiv.org/abs/1312.6229

一、介绍

本文是Pierre Sermanet、David Eigen、Xiang Zhang、Michael Mathieu、Rob Fergus、Yann LeCun等人于2013年发表的一篇文章，该论文提出的模型最终获得了2013年ILSVRC(ImageNet Large Scale Visual Recognition Challenge)分类任务的第四名，以及定位和检测任务的第一名。
该论文基于ConvNets，高效地实现了多尺度滑窗方式，采用多任务学习的方式，同时提升了分类、定位和检测子任务的性能。

二、拟解决的问题

1. 特征提取

在深度学习出现之前，分类、定位以及检测任务的特征都需要手工进行提取，难度以及扩展性都不佳；即使专业人员进行了十分精细地分析获取了相关特征，最终的任务完成效果也不是很好。主要原因就是在于待检测的目标在尺度、位置等方面变化较大，难以提取一种具有高度识别力的特征，因此，本文希望提出一种特征提取的方式，能够适用于分类、定位以及检测任务，并且能够比较好的解决上述问题，由此，诞生了OverFeat。
OverFeat是一种特征提取器，类似于传统图像处理中的SIFT算子、HOG算子一样，并不是指某个网络。

2. 视觉任务

本文希望采用多任务学习的方式，去综合提高各个子任务的性能。
下面明确一下本文需要完成的三个子任务：分类、定位以及检测任务是什么。

分类任务：根据图片中的主要目标为该图片分配唯一标签。由于一张图片可能包含多种潜在的但未被标注的目标，因此，每张图片允许进行五次猜测，也就是所谓的Top-5 Error。
定位任务：与分类任务一样，一张图片只有一个对应类别标签，因此同样可以有五次猜测的机会，但不同的是，每次猜测时还需要将目标的位置用bounding box的形式标注并返回，如果猜测的box与真实的box的IOU至少大于50%并且对应类别也正确，则定位成功。
检测任务：与定位任务不同的地方是每张图片可能包含若干甚至是不包含目标，false positive会通过MAP指标进行惩罚。

三、解决方法

为了解决目标在尺度、位置等方面变化较大的问题，本文采取了一种基于ConvNet的高效多尺度滑窗方法。具体步骤如下：

采用多尺寸、多位置滑窗的方式去进行检测

首先每张图片通过resize操作获取多个尺度的图片（本文采用的是六个尺度，具体可参加原论文Appendix）
然后对于各个尺度的图片的各个位置，获取一个固定大小的窗口，这个窗口具体由特征提取器的stride决定（在本文中，由于使用了offset max-pooling，特征提取器的stride为12，因此，可以认为滑窗的大小为12*12）

滑窗存在的一个问题就是可能难以完整包含目标，有利于分类，但不利于定位和检测，因此，有了后续的步骤2和3。