EfficientNet 概念与数学原理深度解析

六月五日

已于 2025-02-27 20:02:09 修改

阅读量795

点赞数 21

分类专栏： Pytorch指南文章标签：算法聚类人工智能深度学习 python 神经网络机器学习

于 2025-02-27 19:56:40 首次发布

本文链接：https://blog.youkuaiyun.com/2401_86968005/article/details/145912282

版权

Pytorch指南专栏收录该内容

83 篇文章

订阅专栏

EfficientNet 概念与数学原理深度解析

1. 核心概念

1.1 复合缩放（Compound Scaling）

核心思想：同时调整网络的深度、宽度和分辨率
数学表达：
$\text{depth}: d = \alpha^\phi \\ \text{width}: w = \beta^\phi \\ \text{resolution}: r = \gamma^\phi \\ \text{约束条件}: \alpha \cdot \beta^2 \cdot \gamma^2 \approx 2 \\ \alpha \geq 1, \beta \geq 1, \gamma \geq 1$
其中 $\phi$ 是用户定义的缩放系数

想象你在设计一栋房子：

深度：楼层数（网络层数）
宽度：每层房间数（通道数）
分辨率：房间大小（输入图像尺寸）

EfficientNet的秘诀就是：

不是单纯增加楼层（深度）
也不是单纯扩大房间（宽度）
而是同时调整这三个方面，按最佳比例来

1.2 MBConv 模块

结构组成：
1. 1x1 扩展卷积（Expand）
2. 深度可分离卷积（Depthwise）
3. SE（Squeeze-and-Excitation）模块
4. 1x1 投影卷积（Project）
数学表达：
对于输入 $X$ ，MBConv 模块的输出为：
$\text{Proj}(\text{SE}(\text{DW}(\text{Expand}(X))))$

为什么这样设计？

深度（楼层）的作用

提取更抽象的特征
但太深会导致梯度消失

宽度（房间）的作用

捕捉更多细节特征
但太宽会增加计算量

4.3 分辨率的作用

看到更清晰的细节
但太大会显著增加计算

2. 数学原理

2.1 深度可分离卷积

标准卷积计算量：
$C_{std} = K^2 \cdot C_{in} \cdot C_{out} \cdot H \cdot W$
深度可分离卷积计算量：
$C_{depthwise} = K^2 \cdot C_{in} \cdot H \cdot W + C_{in} \cdot C_{out} \cdot H \cdot W$
计算量减少比例：
$\frac{C_{depthwise}}{C_{std}} = \frac{1}{C_{out}} + \frac{1}{K^2}$

2.2 Squeeze-and-Excitation 模块

Squeeze 操作：
$z_c = \frac{1}{H \times W} \sum_{i=1}^H \sum_{j=1}^W u_c(i,j)$
Excitation 操作：
$\sigma(W_2 \delta(W_1 z))$
其中 $\delta$ 是 ReLU 激活函数， $\sigma$ 是 Sigmoid 函数
特征重标定：
$\tilde{x}_c = s_c \cdot u_c$

3. 网络架构

3.1 整体结构

阶段划分：

Stage	Operator	Resolution	Channels	Layers
1	Conv3x3	224x224	32	1
2	MBConv1, k3x3	112x112	16	1
3	MBConv6, k3x3	112x112	24	2
4	MBConv6, k5x5	56x56	40	2
5	MBConv6, k3x3	28x28	80	3
6	MBConv6, k5x5	14x14	112	3
7	MBConv6, k5x5	14x14	192	4
8	MBConv6, k3x3	7x7	320	1
9	Conv1x1 & Pooling	7x7	1280	1

3.2 缩放策略

基线模型（B0）参数：
$\phi=1, \alpha=1.2, \beta=1.1, \gamma=1.15$
缩放公式：
$\text{Depth}: D = \alpha^\phi \\ \text{Width}: W = \beta^\phi \\ \text{Resolution}: R = \gamma^\phi$

4. 性能分析

4.1 计算复杂度

FLOPs 计算：
$\text{FLOPs} \propto d \cdot w^2 \cdot r^2$
参数量计算：
$\text{Params} \propto d \cdot w^2$

4.2 精度与效率平衡

精度公式：
$\text{Accuracy} = f(d,w,r)$
其中 $f$ 是复杂的非线性函数
效率公式：
$\text{Efficiency} = \frac{\text{Accuracy}}{\text{FLOPs}}$

5. 优化理论

5.1 帕累托最优

目标：
$\max_{d,w,r} \text{Accuracy}(d,w,r) \\ \text{s.t.} \quad \text{FLOPs}(d,w,r) \leq \text{Budget}$
约束条件：
$\alpha \cdot \beta^2 \cdot \gamma^2 \approx 2$

5.2 神经架构搜索

搜索空间：
$\mathcal{S} = \{(\alpha, \beta, \gamma) | \alpha \cdot \beta^2 \cdot \gamma^2 \approx 2\}$
优化目标：
$\max_{(\alpha,\beta,\gamma) \in \mathcal{S}} \text{Accuracy}(d(\alpha),w(\beta),r(\gamma))$

6. 数学证明

6.1 复合缩放最优性

定理：在计算量约束下，复合缩放策略可以达到帕累托最优

证明：

定义目标函数：
$\max_{d,w,r} f(d,w,r) \\ \text{s.t.} \quad d \cdot w^2 \cdot r^2 \leq C$
使用拉格朗日乘数法：
$\mathcal{L}(d,w,r,\lambda) = f(d,w,r) - \lambda(d \cdot w^2 \cdot r^2 - C)$
求导并令导数为零：
$\frac{\partial f}{\partial d} = \lambda w^2 r^2 \\ \frac{\partial f}{\partial w} = 2\lambda d w r^2 \\ \frac{\partial f}{\partial r} = 2\lambda d w^2 r$
解得最优条件：
$\frac{1}{d} \frac{\partial f}{\partial d} = \frac{2}{w} \frac{\partial f}{\partial w} = \frac{2}{r} \frac{\partial f}{\partial r}$
由此可得复合缩放关系：
$\propto \alpha^\phi, w \propto \beta^\phi, r \propto \gamma^\phi$

7. 实际应用

7.1 模型缩放

缩放步骤：
1. 固定 $\phi=1$ ，搜索最优 $\alpha, \beta, \gamma$
2. 按比例缩放得到 B0-B7 模型
示例计算：
对于 B4 模型：
$\phi=4 \\ d = 1.2^4 \approx 2.07 \\ w = 1.1^4 \approx 1.46 \\ r = 1.15^4 \approx 1.75$