MobileNet V1论文阅读和代码解析

最新推荐文章于 2025-05-25 09:02:01 发布

原创

最新推荐文章于 2025-05-25 09:02:01 发布 · 7.2k 阅读

34 ·

CC 4.0 BY-SA版权

文章标签：

#mobilenet #separable_conv2d

本文深入探讨MobileNet V1论文，重点关注其核心——深度可分离卷积，以及如何通过宽度因子和分辨率因子调整模型大小。详细解析网络结构，包括每层的卷积操作，并提供了 TensorFlow 实现的关键代码片段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文阅读

1.前言

自从AlexNet在2012年获得ImageNet冠军以来，卷积神经网络在计算机视觉中随处可见。为了获得更高的准确率，现在的趋势是让网络越来越深，越来越复杂。然而这些改进会影响到网络的大小和速度。在很多现实世界的应用中，比如机器人，自动驾驶，增强现实等，需要图像识别任务在有限的计算资源平台上做出及时的反应。

这篇论文描述了一个很高效的网络模型和两个超参数，来实现比较小的模型去满足手机和嵌入式设备的需求。

其实最近已经开始有一些论文对小而高效的论文感兴趣了。很多不同的尝试但是都可以总结为要么压缩预训练网络要么直接训练小型的网络。而这篇文章是要设计一种网络架构能够适应不同的资源限制。MobileNet主要关注的是优化延迟，而其他很多文章主要考虑网络大小而不考虑速度。

2.MobileNet结构

2.1 Depthwise Separable Convolution

MobileNet的基础是Depthwise Separable Convolution（深度可分离卷积），这种卷积是将卷积进行了分解，分解成了一个depthwise convolution和一个1x1的卷积叫做pointwise convolution。Depthwise卷积是对input的每一个channel有一个filter，Pointwise卷积是对depthwise计算出来的结果进行1x1的卷积运算。标准的卷积运算是一步中就包含了filter计算和合并计算，然后直接将输入变成一个新的尺寸的输出。Depthwise separable convolution是将这个一步的操作分成了两层，一层做filter计算，一层做合并计算。这种分解的方式极大的减少了计算量和模型的大小。

先对上图的输入输出尺寸做一些说明。输入是尺寸为 $D_F\times D_F \times M$ ，输出的尺寸为 $D_F\times D_F \times N$ ， $D_F$ 是输入的长宽， $M$ 是输入的channel（可以认为是depth），假设输出长宽不变 $D_F$ 也是输出的长宽， $N$ 是输出的channel。

图（a）是标准的卷积运算需要的filter。对于标准的卷积计算方式，需要尺寸为 $D_K \times D_K\times M\times N$ 的kernel， $D_K$ 是kernel的长宽。所以计算次数会是 $D_K\times D_K\times M\times N\times D_F\times D_F$