Searching for MobileNetV3

最新推荐文章于 2025-11-17 23:38:44 发布

原创

最新推荐文章于 2025-11-17 23:38:44 发布 · 3.2k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#MobileNetV3 #MobileNet #lightweight network #segmentation head #classification

本文提出了新一代的MobileNetV3模型，通过硬件感知的网络架构搜索（NAS）和NetAdapt算法，针对移动端进行了优化。MobileNetV3包括Large和Small两个版本，分别适用于不同的资源需求。新模型在分类、检测和分割任务上实现了SOTA性能，同时提高了效率。MobileNetV3采用了新的非线性设计，如h-swish，以及高效的分割解码器LR-ASPP，提高了整体性能。

原文链接：https://arxiv.org/pdf/1905.02244.pdf

摘要：

本文展示了基于互补搜索技术（complementary search）与先进网络结构设计的新一代mobilenet。MobileNetV3通过结合硬件感知网络架构搜索(NAS)和NetAdapt算法，对移动端的cpu进行调优，然后通过新的架构改进对其进行改进。本文一开始探索了如何才能使自动搜索算法与网络设计一起利用互补，提升整体的SOTA。这个过程中提出了两种新的MobileNet模型：MobileNetV3-Large与MobileNetV3-Small，分别对应高低资源使用情况。这些模型之后适配与应用在目标检测与实例分割上。对于实例分割任务来说（或者任何其他稠密像素级预测），我们提出了一种称为Lite Reduced Atrous Spatial Pyramid Pooling（LR-ASSPP）新的高效分割解码器。我们在mobile分类、检测、分割上取得了新的SOTA的结果。MobileNetV3-Large比MobileNetV2准确率高3.2%，延时减少15%。MobileNnetV2-Small比MobileNetV2准确率搞了4.6%，速度快了5%。MobileNetV3-Large检测比MobileNetV2在COCO数据集上快了25%。MobleNetV3-Large LR-ASPP比MobileNetV2 R-ASPP在Cityscapes segmentation数据集上达到了类似准确率，速度快了30%。

1、介绍

高效的神经网络在移动应用中无处不在，提供了一种全新的设备体验。他们也为个人隐私提供了保护使得用户在从神经网络受益的同时不用将数据发送到服务器上进行计算。神经网络效率的提高不通过更高的精度与更低的延迟改善了用户体验，还可以通过降低功耗保护电池寿命。

本文描述了我们用来开发出MobileNetV3大小模型的方法，以提供新一代高精度高效的神经网络模型，来驱动移动端CV发展。新网络推动了SOTA的发展，展示了如何将自动搜索及时雨与先进网络结构结合，构建有效模型。

本文的目的是研发最高效的CV结构来优化移动端准确率与延时的trade-off。为了达到这个目的我们介绍了：（1）交互搜索技术（2）移动端新的高效非线性设计（3）新的高效的网络设计（4）新的高效分割解码器。我们通过深入实验验证每项技术适用于广泛的用例与移动设备。

本文组织如下。我们在第二节中讨论了相关工作。第三节中回顾了移动端模型中高效模块。第四节回顾了结构搜索与MnasNet与NetAdapt算法的互补性。第五节描述了通过联合搜索提高模型效率的新型网络架构设计。第六节介绍了分类、检测、分割的扩展实验，证明方法的有效性与不同方法的贡献。第七节中包括了总结与后续的工作。

2、相关工作

设计深度网络结构实现精度与效率的最优平衡是近些年活跃的研究领域之一。无论是新颖的手工设计网络还是算法自动搜索网络结构都在这一领域发挥了重要作用。

SqueezeNet【20】在squeeze与expand模块中广泛使用1×1卷积，主要关注减少参数的数量。最近的工作将研究重点从减少参数量转移到减少操作数量（MAdds）与实际延时中。MobileNetV1【17】使用通道可分离卷积来实质改进计算效率。MobileNetV2【37】在此基础上进行扩展，引入具有反向残差模块与线性瓶颈的高效资源模块。ShuffleNet【47】利用group卷积与通道shuffle操作来进一步减少MAdds。CondenseNet【19】在训练阶段使用group卷积来保证层间的有效dense连接以便特征复用。ShiftNet【44】提出了point-wise卷积交错shift操作来替代时耗高的空间卷积。

为了使得结构设计自动化，增强学习（RL）被引入用来搜索高精度的网络结构【51,52，3,25,33】。完全可配置的搜索空间会以指数级数增长且难以处理。所以早期的结构搜索主要关注单元级的结构搜索，在所有层中复用相同单元。最近文献【41】中探索了模块及分层搜索空间，允许网络的不同分辨率使用不同的网络结构。为了减少搜索的时耗，文献【26,5，43】中使用了可微搜索框架，进行基于梯度的优化。针对现有网络应用受限于移动平台的问题，文献【46,14,12】提出了更高效的自动网络简化算法。

量化是另外一种补充优化【21,23,45,39,49,50,35】，以通过降低精度提升网络效率。最后，知识蒸馏【4,15】提供一种附加的补充方法，通过大型teacher网络来监督精确的小型student网络。

3、Efficient Mobile Building Blocks

Mobile模型是建立在越来越高效的模块基础上的。MobileNetV1【17】使用高效的深度可分离卷积来替代传统卷积。深度可分离卷积通过将空间滤波与特征生成机制分离，有效的分解了传统卷积。深度可分离卷积由两个独立层定义：用于空间滤波的轻量级深度卷积与用于特征生成的pointwise1×1卷积。

MobileNetV2引入线性bottleneck与反向ResNet结构来利用问题的低秩性使得层结构更加高效。结构如图3所示，由1×1扩展卷积，depthwise卷积与1×1投影层组成。输入与输出只有在他们通道数相同的时候才能使用residual连接。这种结构在输入与输出时保持了紧凑的表示，同事在内部扩展到高维特征空间，增加了非线性通道间转化的表达能力。

MnaNnet【41】建立在MobileNetV2结构基础上，通过在bottleNeck结构中引入基于squeeze与excitation的轻量级注意力模块。注意squeeze与excitaion模块与文献【18