MobileNet V2 论文笔记

最新推荐文章于 2025-03-23 21:09:29 发布

转载最新推荐文章于 2025-03-23 21:09:29 发布 · 456 阅读

33 篇文章

订阅专栏

                                        <div class="markdown_views">
            <p>论文：Inverted Residuals and Linear Bottlenecks: Mobile Networks for Classification, Detection and Segmentation</p>

文章在residual net和MobileNet V1的基础上，提出MobileNet V2模型，一方面保证准确性，另一方面大幅的减少multiply-adds（MAdd）的计算量，从而减少模型的参数量，降低内存占用，又提高模型的计算速度，以适应移动端应用。

Block 基本结构

文章的主要贡献：提出一种颠倒的、bottleneck为线性变换的resdual 结构。这中结构的一个block如下：
输入：一个低维 k（通道）的、经压缩的数据
然后经过：
step 1， point wise卷积扩展维度（通道），扩展因子为t；
step 2， depthwise separable 卷积，stride为 s；
step 3， linear conv把特征再映射的低维，输出维度为 k’；
输出作为下一个block的输入，堆叠block。
具体结构如表：
这里写图片描述

1. Depthwise separable conv

这种卷积方式早已被广泛使用，实现方法是把常规卷积层分为两个独立的层。第一层称为depthwise convolution，对输入的每个通道做单独的卷积，第二层称为pointwise convolution，使用1x1的卷积核做常规卷积。
如果使用的是kxk的卷积核，这种卷积几乎能减少k²的计算量。

2. Linear bottlenecks

用线性变换层替换channel数较少的层中的ReLU，这样做的理由是ReLU会对channel数低的张量造成较大的信息损耗。ReLU会使负值置零，channel数较低时会有相对高的概率使某一维度的张量值全为0，即张量的维度减小了，而且这一过程无法恢复。张量维度的减小即意味着特征描述容量的下降。因而，在需要使用ReLU的卷积层中，将channel数扩张到足够大，再进行激活，被认为可以降低激活层的信息损失。文中举了这样的例子：
这里写图片描述
上图中，利用nxm的矩阵B将张量（2D，即m=2）变换到n维的空间中，通过ReLU后（y=ReLU(Bx)），再用此矩阵之逆恢复原来的张量。可以看到，当n较小时，恢复后的张量坍缩严重，n较大时则恢复较好。

3. inverted residual sturcture

这里写图片描述
原residual structure 出自Deep Residual Learning for Image Recognition. 这种结构解决了深度神经网络随着网络层数的加深带来的梯度消失/爆炸，模型不收敛的问题，使DNN可以有上百甚至更多的层，提高准确率。
从图中可以看出，这种结构使用一个快捷链接（shortcut）链接了block的输入与输出（实际做的是element wise add），block内部是常规conv，一般block内部数据的维度低于block边缘–即bottleneck的数据维度。
论文的题目，inverted residual，颠倒的正是block 内数据维度与bottleneck数据维度的大小，这从上图的中数据块的深度情况可以看出。
这种颠倒基于作者的直觉：bottleneck层包含了所有的必要信息，扩展的层做的仅仅是非线性变换的细节实现。
实际上，这中翻转能节省内存，分析见后。