文章目录
本篇博客将要解析的论文是 OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks,论文地址为: https://arxiv.org/abs/1312.6229
一、介绍
本文是Pierre Sermanet、David Eigen、Xiang Zhang、Michael Mathieu、Rob Fergus、Yann LeCun等人于2013年发表的一篇文章,该论文提出的模型最终获得了2013年ILSVRC(ImageNet Large Scale Visual Recognition Challenge)分类任务的第四名,以及定位和检测任务的第一名。
该论文基于ConvNets,高效地实现了多尺度滑窗方式,采用多任务学习的方式,同时提升了分类、定位和检测子任务的性能。
二、拟解决的问题
1. 特征提取
在深度学习出现之前,分类、定位以及检测任务的特征都需要手工进行提取,难度以及扩展性都不佳;即使专业人员进行了十分精细地分析获取了相关特征,最终的任务完成效果也不是很好。主要原因就是在于待检测的目标在尺度、位置等方面变化较大,难以提取一种具有高度识别力的特征,因此,本文希望提出一种特征提取的方式,能够适用于分类、定位以及检测任务,并且能够比较好的解决上述问题,由此,诞生了OverFeat。
OverFeat是一种特征提取器,类似于传统图像处理中的SIFT算子、HOG算子一样,并不是指某个网络。
2. 视觉任务
本文希望采用多任务学习的方式,去综合提高各个子任务的性能。
下面明确一下本文需要完成的三个子任务:分类、定位以及检测任务是什么。
- 分类任务:根据图片中的主要目标为该图片分配唯一标签。由于一张图片可能包含多种潜在的但未被标注的目标,因此,每张图片允许进行五次猜测,也就是所谓的Top-5 Error。
- 定位任务:与分类任务一样,一张图片只有一个对应类别标签,因此同样可以有五次猜测的机会,但不同的是,每次猜测时还需要将目标的位置用bounding box的形式标注并返回,如果猜测的box与真实的box的IOU至少大于50%并且对应类别也正确,则定位成功。
- 检测任务:与定位任务不同的地方是每张图片可能包含若干甚至是不包含目标,false positive会通过MAP指标进行惩罚。
三、解决方法
为了解决目标在尺度、位置等方面变化较大的问题,本文采取了一种基于ConvNet的高效多尺度滑窗方法。具体步骤如下:
- 采用多尺寸、多位置滑窗的方式去进行检测
-
首先每张图片通过resize操作获取多个尺度的图片(本文采用的是六个尺度,具体可参加原论文Appendix)
-
然后对于各个尺度的图片的各个位置,获取一个固定大小的窗口,这个窗口具体由特征提取器的stride决定(在本文中,由于使用了offset max-pooling,特征提取器的stride为12,因此,可以认为滑窗的大小为12*12)
滑窗存在的一个问题就是可能难以完整包含目标,有利于分类,但不利于定位和检测,因此,有了后续的步骤2和3。
-
对每个窗口,在进行分类的同时,还完成与该窗口相关的bounding box的位置和大小进行预测
通过预测的bounding box,从而对每个位置的滑窗进行修正。
-
为每个类别在各个尺度和位置进行置信度的累积
与传统的目标检测不同,在各个尺度、

本文深入解析OverFeat模型,一种基于卷积神经网络统一处理分类、定位和检测任务的方法。通过改进特征提取和引入多任务学习,OverFeat在ILSVRC竞赛中取得优异成绩。
最低0.47元/天 解锁文章
649





