【论文学习】MobileNets：Efficient Convolutional Neural Networks for Mobile Vision Applications

最新推荐文章于 2025-07-04 10:20:26 发布

翻译最新推荐文章于 2025-07-04 10:20:26 发布 · 1.2w 阅读

文章标签：

#深度学习 #计算机视觉

论文学习同时被 3 个专栏收录

8 篇文章

订阅专栏

深度学习

8 篇文章

订阅专栏

计算机视觉

7 篇文章

订阅专栏

MobileNets是谷歌公司在2017年发布的一种可以在手机等移动终端运作的神经网络结构。

论文地址：点击打开链接

作者给出了移动端和嵌入式视觉应用的MobileNets模型。MobileNets基于流线型结构设计，使用深度可分离卷积（depthwise separable convolutions）来构建轻量级深度神经网络。作者引入了两个简单的全局超参数（）在速度（latency）和精确度进行折中。这些超参数允许模型构建者根据问题的限制为其应用选择正确大小的模型。除此之外，作者在资源和准确度权衡的广泛实验，结果表明MobileNets在ImageNet分类问题上与其他流行的模型上有极强的性能。然后作者在广泛的应用场景上演示了MobileNets高效性，包括物体识别、细粒度分类、人脸属性和大规模的地理定位。

1、简介

自从AlexNet赢得ImageNet挑战赛（ILSVRC2012）推广深度卷积神经网络以后，卷积神经网络（Convolutional neural networks）在计算机视觉领域变得十分普及。目前的总体趋势为了实现更好的准确度建立更深、更复杂的网络。然而这些提高准确率的进步并不能使网络在大小和速度方面必要高效。在许多现实世界的应用中，比如机器人、自动驾驶汽车和AR技术（augmented reality），识别任务需要及时地在计算有限的平台上执行。

这篇论文描述了一个有效的网络架构和两个超参数来建立非常小的、低延迟的模型，以便轻松匹配移动和嵌入式视觉应用的设计要求。

2、 Prior Work

在最近的很多文献中都对建立小型高效的神经网络有很浓烈的兴趣。许多不同的方法可以大致分类为压缩预训练网络或者是直接训练小型网络。本篇论文提出一类网络架构，允许模型开发人员专门选择一个与其应用的资源限制（延迟、大小）相匹配的小型网络。MobileNets主要侧重优化延迟也同时生成小型网络。许多论文只关注了网络大小但是没有考虑模型的速度。

MobileNets主要由深度可分离卷积构建，最初在L. Sifre. Rigid-motion scattering for image classification. PhD thesis, Ph. D. thesis, 2014. 1, 3 中引入，最后在Inception模型中使用来减少最初几层的计算量。扁平化网络通过完全分解的网络建立，显示出了极大的因式分解网络的潜力。Factorized Networks与本文关系不大，介绍了一个类似分解卷积的方法和拓扑结构连接的使用。然后，Xception network演示了如何扩展深度可分离的卷积核（文中是filter，我在之前CNN学习笔记里面看到filter也指卷积核，kernel）来实现比Inception V3网络性能还好。另一个小型网络是SqueezeNet。它使用一个瓶颈方法来设计小网络。其他减少计算量的网络包括structured transform networks和deep fried convents。

一个获得小型网络的不同的方法是shrinking，把网络进行分解或者压缩与训练网络。文献中压缩的方法有product quantization、hashing、pruning、vector quantization和Huffman coding。也有各种各样的因式分解的方法提出来加速预训练网络。另一个训练小型网络的方法是蒸馏法（distillation），就是用一个大型网络来教一个小型网络。蒸馏法是作者方法的补充，在Section 4中有用例的使用。另一个新兴方法是low bit networks。

3、 MobileNet Architecture

MobileNet建立在深度可分离的过滤器（depthwise separable filters），这也是核心层。

3.1 Depthwise Separable Convolution

MobileNet模型基于深度可分离卷积建立，这是一种分解卷积的形式，把标准卷积分解成了一种深度卷积（depthwise convolution）和一个1*1的卷积，1*1卷积又称为逐点卷积（pointwise convolution）。对于MobileNets而言，深度卷积在每个通道（channel）上应用一个卷积核。逐点卷积接着应用1*1卷积把输出和深度卷积结合起来。标准卷积在一个步骤把卷积核和输入结合为新的输出。深度可分离卷积将其分为两层，一层用于滤波（filtering），一层用于结合。这个分解过程极大地减少了计算量和模型的大小。

一个标准的卷积层把一个DF*DF*M的特征图（feature map）F作为输入，生成一个DG*DG*N的特征图G，DF是输入特征图的正方形宽度和高度，M是输入通道（input channels或者input depth）的数目，DG是输出特征图的正方形的宽度和高度，N是输出通道的数目。

注：在文章中有一个错误，如图：

标注的DF应该是DG。

标准的卷积层由大小为DK*DK*M*N的卷积核K参数化。DK是假设正方形卷积核的空间维度，M是输入通道的数目，N是输出通道的数目。

标准卷积假设步长为1，并且考虑padding，输出特征图计算如下：

标准卷积的计算代价：DK*DK*M*N*DF*DF
计算代价取决于输入通道M、输出通道N、卷积核DK*DK、特征图大小DF*DF。
MobileNet模型就是用来面对这些属于和他们之间的相互关系的。首先使用深度可分离卷积来打破输出通道数目和卷积核大小之间的相互关系。
标准卷积操作具有基于卷积核的滤波特征和结合特征从而产生新的特征。滤波和结合步骤可以通过使用分解卷积（也叫做深度可分离卷积）分为两个步骤以降低计算成本。
深度可分离卷积由两层组成：深度卷积和逐点卷积。作者使用深度卷积把一个卷积核应用到输出通道上。逐点卷积接着被用来创建depthwise layer的输出的线性叠加。MobileNets对两个层都使用batchnorm和ReLU。

每个输入通道一个卷积核的深度卷积可以写为：

K ̂是大小为 DK*DK*M的深度卷积核。K ̂中的mth个卷积核应用在通道F中的mth个通道从而产生输出特征图G ̂的mth个通道。
深度可分离卷积计算代价：DK*DK*M*DF*DF
深度卷积与标准卷积相比及其高效。然而它只过滤输入通道，不把他们结合成新的特征。因此还需要一个计算深度卷积输出的线性结合的layer，需要1*1卷积生成新特征。
深度卷积和逐点卷积的结合称为深度可分离卷积。
深度可分离卷积代价：DK*DK*M*DF*DF+M*N*DF*DF

通过把卷积过程表示为滤波和结合两个步骤可以减少计算量：

MobileNets使用3*3的深度可分离卷积，比使用标准卷积减少了8-9倍的计算量。

在空间维度的额外的分解并没有减少太多计算量，因为深度卷积的计算量本来就很小。

3.2 Network Structure and Training

如前文所提，MobileNet结构基于深度可分离卷积建立，除了第一层是一个全卷积层。以这样简单的方式定义网络就可以简单的探索网络拓扑结构从而找到一个好的网络。表1是MobileNet的架构。所有层之后都是batchnorm和ReLU非线性激活函数，但是最后的全连接层除外，它没有非线性激活函数，而是直接输入到softmax层进行分类。图3比较了标准卷积和深度可分离卷积，二者都跟着batchnorm层和ReLU非线性激活函数。在深度卷积层和第一层都能处理下采样问题。最后的平均池化层在全连接层前将空间维度减少为1。把深度卷积和逐点卷积当作独立层计算，MobileNet有（1+13*2+1=28）层。

仅仅通过少量的Mult-Adds定义网络是不够的。确保这些操作可以高效实现也同样重要。例如非结构的稀疏矩阵操作通常并不比密集矩阵操作快，除非稀疏矩阵的程度足够。作者的模型结构几乎把全部的计算复杂度放到了1*1卷积中。这可以通过高度优化的通用矩阵乘法（GEMM）实现。通常卷积由GEMM实现但也需要在称为im2col的内存中进行初始排序。例如，这种方法在流行的Caffe包中就有用到。1*1卷积并不要求在内存中有这种排序而且可以直接由GEMM实现，GEMM是最优化的数值线性代数算法之一。MobileNet在1*1卷积花费了95%的计算时间，也有75%的参数量（表2）。几乎所有的额外参数都在全连接层。

MobileNet模型在TensorFlow中使用类似于Inception V3的异步梯度下降的RMSprop进行训练。然而，与训练大模型相反，作者使用较少的正则化和数据增加技术因为小模型不容易过拟合。当训练MobileNets的时候，作者没有使用side heads或者label smoothing，而是通过在大型Inception训练中使用的限制小的cropping的尺寸来减少图片扭曲。另外，作者发现在depthwise filters放置较少或者没有weight decay（L2 regularization）很重要，因为他们的参数量很少。在下一节的ImageNet的benchmarks中，所有的模型都通过同样的参数进行训练，但是不考虑模型的大小。

3.3 Width Multiplier：Thinner Models

尽管基本的MobileNet架构已经够小，延迟度够低，但特定用例或应用或许要使模型更小更快。为了建立这些更小的和更少计算代价的模型，作者引入了一个简单的参数：width multiplier α。它的作用是在每层均匀地减负网络。对于一个给定的层和width multiplier α，输入通道M变成了 αM，输出通道变成了 αN。

带有width multiplier α深度可分离卷积的计算代价变成了：

α∈（0，1]，典型数值为1、0.75、0.5、0.25。α=1是基准MobileNet，α<1是reduced MobileNets。Width multiplier有减少计算量和参数量的作用，大致是α^2。Width multiplier可以用在任何一个模型结构上，来定义一个带有合理准确性、延迟和尺寸的新的更小的模型。它用于定义一个新的简化的、需要重新训练的结构。

3.4 Resolution Multiplier：Reduced Representation

减少神经网络计算代价的第二个超参数是resolution multiplier ρ。作者把这个参数应用在输入图片，每个层的内部特征随后被减去相同的乘数。在实践中，作者通过设置输入分辨率隐式设置ρ。

现在可以把带有width multiplier α和resolution multiplier ρ的深度可分离卷积网络核心层的计算复杂度为：

ρ ∈（0，1]，典型隐式设置以使网络输入分辨率是224，192，160，128。ρ=1是基准MobileNet，ρ<1是computation MobileNets。Resolution multiplier有减少的计算复杂度的作用。

可以看一个在MobileNet中的典型的layer作为例子并看看带有width multiplier和resolution multiplier深度可分离卷积怎么减少代价和参数量。表3显示了不同的架构收缩方法应用在该层时其计算量和参数的数目。第一行是一个全连接层的Mult-Adds的数目和参数，输入特征图大小为14*14*512，卷积核大小3*3*512*51。在下一节将会看到模型资源和准确度的折中细节。

4、 Experiments

本节首先探索了深度卷积的影响以及减少网络宽度而不是减少网络的层数来选择压缩的模型。然后基于两个超参数：width multiplier和resolution multiplier进行网络收缩，并与现阶段主流的模型进行比较。然后探讨MobileNets应用在不同的应用上。

4.1 Model Choices

首先展示了带有深度可分离卷积的MobileNet和全卷积的模型的结果比较。表4看到在ImageNet上使用深度可分离卷积与全卷积相比精确度仅减少了1%，但是Mult-Adds和参数的数量大大减少。

然后作者比较了带有width multiplier的thinner的模型和使用更少层的更浅的模型二者的结果。为了使MobileNet更浅（shallower），表1中的可分离卷积核的5个层都被除去了（特征大小：14*14*512）。表5是在相似的计算量和参数量的时候，thinner的MobileNets比更浅的模型准确度高3%。

4.2 Model Shrinking Hyperparameters

表6是用width multiplier α收缩MobileNet架构之后准确度、计算量以及尺寸之间的折中。准确度随着模型的变小而下降。

表7是用reduced input resolutions训练MobileNets时，不同的resolution multiplier ρ值准确度、计算量和尺寸的折中。准确度随着分辨率变低而下降。

图4显示了由width multiplier α∈{1，0.75，0.5，0.25}和resolution{224，192，160，128}的cross product生成的16个模型时在ImageNet准确度和计算量的折中。α=0.25模型非常小的时候结果是对数线性跳跃（log linear with a jump）。

图5显示了由width multiplier α ∈{1，0.75，0.5，0.25}和resolution{224，192，160，128}的cross product生成的16个模型时在ImageNet准确度和参数量的折中。

表8比较了full MobileNet和原始GoogleNet和VGG16。MobileNet和VGG16准确度相似，但是小了32倍、计算量少了27倍。MobileNet比GoogleNet准确率更高，但是更小，计算量少了2.5倍。

表9比较了用width multiplier α=0.5和resolution160*160减少后的 MobileNet。Reduced MobileNet比AlexNet准确度高4%，但是小了45倍，计算量少了9.4倍。同样，MobileNet比同等大小的SqueezeNet准确度高了4%，计算量少了22倍。

4.3 Fine Grained Recognition

在Stanford Dogs dataset训练了细粒度识别。本文扩展了指定方法，收集了一个更大但是有更多噪声的训练集。采用网络噪声数据来预训练一个细粒度狗的识别模型，然后在Stanford Dogs训练集上进行微调。结果在表10中显示。在很大程度缩减的计算量和大小时，MobileNet能几乎实现J. Krause, B. Sapp, A. Howard, H. Zhou, A. Toshev, T. Duerig, J. Philbin, and L. Fei-Fei. The unreasonable ef- fectiveness of noisy data for fine-grained recognition. arXiv preprint arXiv:1511.06789, 2015. 6 的结果。

4.4 Large Scale Geolocation（原文是Geolocalizaton，应该是拼错了）

PlaNet的任务是在地球上确定一张照片拍摄位置的分类问题。这个方法把地球分成了一个个单元格集合到目标类别，用百万个地理位置标记图片训练卷积神经网络。PlaNet已经能够成功对大量的图片进行地理标记，而且处理相同任务性能比Im2GPS要好。

作者在相同的数据使用MobileNet架构预训练PlaNet。完整的基于Inception V3的PlaNet模型有5200万个参数和57.4亿Mult-Adds。MobileNet模型仅有1300万个参数，主体300万，最后一层1000万参数，也只有58万个Mult-Adds。表11中有显示。MobileNet与PlaNet相比，规模小了很多，性能只有略微的降低。然而，MobileNet仍然比Im2GPS性能好很多。

4.5 Face Attributes

MobileNet的另一个用例是压缩未知或者深奥复杂的训练的大型系统。在一个人脸属性分类任务中，作者演示了在MobileNet和蒸馏法之间的协同关系。蒸馏法是一种深度网络的知识迁移的技术。作者试图简化一个具有7500万个参数和16亿的Mult-Adds的大型的人脸属性分类器。分类器在一个类似于YFCC100M的多属性数据集上进行训练。

作者采用MobileNet架构提取一个人脸特征分类器。蒸馏法通过训练分类器来仿真一个更大的模型的输出而不是采用人工标注，因而能够从大型（可能无限大）的未标注的数据集中进行训练。结合蒸馏法训练的可扩展性和MobileNet的少量参数，终端系统不仅不要求正则化（例如weight-decay和early-stopping），反而会表现出更好的性能。表12中很明显的显示基础MobileNet分类器具有积极的模型缩小的弹性：它在人脸属性上实现了一个相似的平均精度却只消耗了Mult-Adds的1%。

4.6 Object Detection

MobileNet同样可以作为一个高效的基础网络部署在现代目标检测系统中。作者在赢得了2016COCO挑战赛的COCO数据集上训练MobileNet并且给出了结果。表13中，在Faster-RCNN和SSD框架下，MobileNet和VGG和Inception V2进行比较。在实验中，SSD以300的输入分辨率（SSD 300）与分别是300和600输入分辨率的Faster-RCNN（Faster-RCNN 300，Faster-RCNN 600）进行比较，Faster-RCNN模型每个照片评估了300RPN proposal boxes。模型在除去了8000最小图片的COCO训练集并在最小值上进行评估。在两个框架下，MobileNet实现了性能与其他网络可比较的结果，计算复杂度和模型大小都相对更小。

4.7 Face Embeddings

FaceNet模型是目前最先进的人脸识别的模型。它在triplet loss上建立了face embeddings。为了建立一个移动的FaceNet模型，作者使用了蒸馏法通过最小化FaceNet和MobileNet在训练集输出结果的平方差进行训练。小型MobileNet模型的结果在表14中显示。

5、总结

作者基于深度可分离卷积提出了一个叫做MobileNets的新的模型架构，探索了一些重要的设计高效模型的决定思路，然后演示了使用width multiplier和resolution multiplier怎么建立更小和更快的MobileNets，来权衡一个合理的准确度减小大小和延迟度。接着作者比较了不同的MobileNets和流行的模型，演示了其大小、速度和准确度的特性。最后，在应用到一系列任务上应用MobileNets验证了其高效性。下一步的计划是在TensorFlow上发布模型。