EfficientNet 简介

最新推荐文章于 2025-10-12 23:10:24 发布

原创

最新推荐文章于 2025-10-12 23:10:24 发布 · 9.2k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #神经网络

本文探讨了EfficientNet如何通过NAS技术平衡深度、宽度和分辨率，以实现高效能的网络设计。MBConv结构的关键组成部分，如1x1卷积、Depthwise Conv和SE模块，以及EfficientNet系列模型（B0-B7）的详细配置，展示了如何通过复合缩放方法优化网络性能。

EfficientNet

单独适当增大深度、宽度或分辨率都可以提高网络的精确性，但随着模型的增大，其精度增益却会降低。此外，这三个维度并不是独立的（如：高分辨率图像需要更深的网络来获取更细粒度特征等），需要我们协调和平衡不同尺度的缩放，而不是传统的一维缩放。EfficientNet 的设想就是能否设计一个标准化的卷积网络扩展方法，既可以实现较高的准确率，又可以充分的节省算力资源。其通过 NAS（Neural Architecture Search）技术来搜索网络的图像输入分辨率 r，网络的深度 depth 以及 channel 的宽度 width 三个参数的合理化配置。
在这里插入图片描述

增加网络的深度 depth 能够得到更加丰富、复杂的特征并且能够很好的应用到其它任务中。但网络的深度过深会面临梯度消失，训练困难的问题
增加网络的 width 够获得更高细粒度的特征并且也更容易训练，但对于 width 很大而深度较浅的网络往往很难学习到更深层次的特征
增加输入网络的图像分辨率能够潜在地获得更高细粒度的特征模板，但对于非常高的输入分辨率，准确率的增益也会减小。并且大分辨率图像会增加计算量

$\begin{aligned} &第 i 个层的操作可以看成映射函数：Y_i = F_i(X_i) \\ &若网络 N 由 k 个层组成的，则可表示为：N = F_k \bigodot ... \bigodot F_2 \bigodot F_1(X_1) = \bigodot_{j=1...k}F_i(X_1) \\ &论文中对整个网络的运算进行抽象：N = \bigodot_{i=1...s}F_i^{L_i}(X_{<H_i, W_i, C_i>}) \\ \end{aligned}$