残差网讲解

原创已于 2022-04-11 22:56:30 修改 · 898 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2022-04-11 22:49:47 首次发布

人工智能同时被 2 个专栏收录

41 篇文章

订阅专栏

机器学习

22 篇文章

订阅专栏

背景

残差网被提出：

He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

在另一篇文章中进行了理论分析：

He K, Zhang X, Ren S, et al. Identity mappings in deep residual networks[C]//European conference on computer vision. Springer, Cham, 2016: 630-645.

残差

残差在数理统计中的表示：实际观察值与估计拟合值之间的差。在这里插入图片描述
$ε^=y1−y^1\hat \varepsilon = {y_1} - {\hat y_1}$

深层网络的退化问题

网络层数加深，收敛时出现退化问题。

输入： $x_1$
输出： $y^\hat y$
激活函数： $f(⋅)f(\cdot)$
计算方式： $x_i=f(x_{i-1}w_{i-1})$ $y^=f(x4w4)\kern{10pt}\hat y=f(x_4w_4)$
损失函数： $E=12(y^−y)2E=\frac{1}{2}(\hat y-y)^2$
求导：
$w^∗=arg⁡min⁡w^12(y^−y)2{\hat w^*} = \mathop {\arg \min }\limits_{\hat w} \frac{1}{2}{(\hat y - y)^2}$
目标最优化损失函数后，求 $w^∗{\hat w^*}$
$∂y^∂w1=∂y^∂x4∂x4∂x3∂x3∂x2∂x2∂w1=w4f′(x4)w3f′(x3)w2f′(x2)w1f′(x1)\begin{array}{l} \frac{{\partial \hat y}}{{\partial {w_1}}} = \frac{{\partial \hat y}}{{\partial {x_4}}}\frac{{\partial {x_4}}}{{\partial {x_3}}}\frac{{\partial {x_3}}}{{\partial {x_2}}}\frac{{\partial {x_2}}}{{\partial {w_1}}}\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = {w_4}f'({x_4}){w_3}f'({x_3}){w_2}f'({x_2}){w_1}f'({x_1}) \end{array}$
上述为链式法则求导。

残差单元

深度残差网有许多堆叠的残差单元组成（Residual Units）, 每个单元可以被表示为下图的形式。
在这里插入图片描述
$yl=h(xl)+F(xl,Wl){{\rm{y}}_l} = h\left( {{{\rm{x}}_l}} \right) + {\mathcal F}\left( {{{\rm{x}}_l},{{\mathcal W}_l}} \right)$
$xl+1=f(yl){{\rm{x}}_{l + 1}} = f\left( {{{\rm{y}}_l}} \right)$
$xl+1=xl+F(xl,Wl){{\rm{x}}_{l + 1}} = {{\rm{x}}_l}{\rm{ + }}{\mathcal F}\left( {{{\rm{x}}_l},{{\mathcal W}_l}} \right)$
$xl+2=xl+1+F(xl+1,Wl+1)=xl+F(xl,Wl)+F(xl+1,Wl+1)\begin{array}{l} {{\rm{x}}_{l + 2}} = {{\rm{x}}_{l{\rm{ + }}1}}{\rm{ + }}{\mathcal F}\left( {{{\rm{x}}_{l{\rm{ + }}1}},{{\mathcal W}_{l{\rm{ + }}1}}} \right)\\ {\kern 15pt}= {{\rm{x}}_l}{\rm{ + }}{\mathcal F}\left( {{{\rm{x}}_l},{{\mathcal W}_l}} \right){\rm{ + }}{\mathcal F}\left( {{{\rm{x}}_{l{\rm{ + }}1}},{{\mathcal W}_{l{\rm{ + }}1}}} \right) \end{array}$

$xL=xl+∑i=lL−1F(xi,Wi){{\rm{x}}_L} = {{\rm{x}}_l}{\rm{ + }}\sum\limits_{i = l}^{L - 1} {{\mathcal F}\left( {{{\rm{x}}_{\rm{i}}},{{\mathcal W}_{\rm{i}}}} \right)}$

$xl{{\rm{x}}_l}$ 第 $l$ 单元的输入特征
$xl+1{{\rm{x}}_{l{\rm{ + }}1}}$ 第 $l$ 单元的输出特征
$F(⋅){\mathcal F}\left( \cdot \right)$ 残差函数
$h(xl)=xlh\left( {{{\rm{x}}_l}} \right) = {{\rm{x}}_l}$ 恒等映射
$f(⋅)f\left( \cdot \right)$ 一个激活函数
$L$ 表示Residual Units的数量

残差的原理

将损失表示为 $ε\varepsilon$
$∂ε∂xl=∂ε∂xL∂xL∂xl=∂ε∂xL(1+∂xL∂xl∑i=lL−1F(xi,Wi))=∂ε∂xL+∂ε∂xL(∂xL∂xl∑i=lL−1F(xi,Wi))\begin{array}{l} \frac{{\partial \varepsilon }}{{\partial {x_l}}} = \frac{{\partial \varepsilon }}{{\partial {{\rm{x}}_L}}}\frac{{\partial {{\rm{x}}_L}}}{{\partial {x_l}}} = \frac{{\partial \varepsilon }}{{\partial {{\rm{x}}_L}}}\left( {1{\rm{ + }}\frac{{\partial {{\rm{x}}_L}}}{{\partial {x_l}}}\sum\limits_{i = l}^{L - 1} {{\mathcal F}\left( {{{\rm{x}}_{\rm{i}}},{{\mathcal W}_{\rm{i}}}} \right)} } \right)\\ {\kern 55pt} = \frac{{\partial \varepsilon }}{{\partial {{\rm{x}}_L}}}{\rm{ + }}\frac{{\partial \varepsilon }}{{\partial {{\rm{x}}_L}}}\left( {\frac{{\partial {{\rm{x}}_L}}}{{\partial {x_l}}}\sum\limits_{i = l}^{L - 1} {{\mathcal F}\left( {{{\rm{x}}_{\rm{i}}},{{\mathcal W}_{\rm{i}}}} \right)} } \right) \end{array}$

$∂ε∂w1=∂ε∂xL∂xL∂xl∂xl∂w1=∂ε∂xL(1+∂xL∂xl∑i=lL−1F(xi,Wi))∂xl∂w1=∂ε∂xL∂xl∂w1+∂ε∂xL(∂xL∂xl∑i=lL−1F(xi,Wi))∂xl∂w1\begin{array}{l} \frac{{\partial \varepsilon }}{{\partial {w_1}}} = \frac{{\partial \varepsilon }}{{\partial {{\rm{x}}_L}}}\frac{{\partial {{\rm{x}}_L}}}{{\partial {x_l}}}\frac{{\partial {x_l}}}{{\partial {w_1}}} = \frac{{\partial \varepsilon }}{{\partial {{\rm{x}}_L}}}\left( {1{\rm{ + }}\frac{{\partial {{\rm{x}}_L}}}{{\partial {x_l}}}\sum\limits_{i = l}^{L - 1} {{\mathcal F}\left( {{{\rm{x}}_{\rm{i}}},{{\mathcal W}_{\rm{i}}}} \right)} } \right)\frac{{\partial {x_l}}}{{\partial {w_1}}}\\ {\kern 10pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} = \frac{{\partial \varepsilon }}{{\partial {{\rm{x}}_L}}}\frac{{\partial {x_l}}}{{\partial {w_1}}}{\rm{ + }}\frac{{\partial \varepsilon }}{{\partial {{\rm{x}}_L}}}\left( {\frac{{\partial {{\rm{x}}_L}}}{{\partial {x_l}}}\sum\limits_{i = l}^{L - 1} {{\mathcal F}\left( {{{\rm{x}}_{\rm{i}}},{{\mathcal W}_{\rm{i}}}} \right)} } \right)\frac{{\partial {x_l}}}{{\partial {w_1}}} \end{array}$