


两
种
实
现
:
右
侧
如
果
加
不
回
去
可
能
需
要
通
道
变
换
两种实现:右侧如果加不回去可能需要通道变换
两种实现:右侧如果加不回去可能需要通道变换


两种ResNet块;


ResNet的梯度计算
y
=
f
(
x
)
,
省
略
L
o
s
s
,
假
设
y
里
包
含
了
L
o
s
s
w
是
靠
近
底
层
的
一
个
参
数
,
w
=
w
−
学
习
率
∗
∂
y
∂
w
所
以
不
希
望
∂
y
∂
w
很
小
,
特
别
小
的
时
候
,
数
值
稳
定
性
会
发
生
问
题
,
y=f(x),省略Loss,假设y里包含了Loss\\w是靠近底层的一个参数,w=w-学习率*\frac{\partial y}{\partial w} \\所以不希望\frac{\partial y}{\partial w}很小,特别小的时候,数值稳定性会发生问题,
y=f(x),省略Loss,假设y里包含了Lossw是靠近底层的一个参数,w=w−学习率∗∂w∂y所以不希望∂w∂y很小,特别小的时候,数值稳定性会发生问题,
看
看
在
网
络
上
再
加
一
层
会
怎
样
,
比
如
在
原
有
的
十
个
卷
积
层
上
再
加
十
层
?
:
y
∗
=
g
(
f
(
x
)
)
∂
y
∗
∂
w
=
∂
g
(
y
)
∂
y
∗
∂
y
∂
w
假
设
加
的
g
层
的
拟
合
能
力
比
较
强
的
话
,
∂
g
(
y
)
∂
y
会
是
一
个
比
较
小
的
数
值
这
样
越
深
的
话
,
越
是
底
层
就
越
会
出
现
问
题
看看在网络上再加一层会怎样,比如在原有的十个卷积层上再加十层?:y^*=g(f(x))\\ \frac{\partial y^*}{\partial w}=\frac{\partial g(y)}{\partial y}*\frac{\partial y}{\partial w}\\ 假设加的g层的拟合能力比较强的话,\frac{\partial g(y)}{\partial y}会是一个比较小的数值\\ 这样越深的话,越是底层就越会出现问题
看看在网络上再加一层会怎样,比如在原有的十个卷积层上再加十层?:y∗=g(f(x))∂w∂y∗=∂y∂g(y)∗∂w∂y假设加的g层的拟合能力比较强的话,∂y∂g(y)会是一个比较小的数值这样越深的话,越是底层就越会出现问题
R e s N e t 的 解 决 方 式 : y ∗ ∗ = f ( x ) + g ( f ( x ) ) = y + y ∗ , 则 ∂ y ∗ ∗ ∂ w = ∂ y ∂ w + ∂ y ∗ ∂ w , 这 样 即 使 ∂ y ∗ ∂ w 很 小 页 无 所 谓 , 直 接 当 作 g 不 存 在 这 样 将 乘 除 变 为 加 减 , 使 得 靠 近 数 据 层 的 w 也 能 较 快 的 更 新 ResNet的解决方式:\\ y^{**}=f(x)+g(f(x))=y+y^*,则\frac{\partial y^{**}}{\partial w}=\frac{\partial y}{\partial w}+\frac{\partial y^*}{\partial w},\\ 这样即使\frac{\partial y^*}{\partial w}很小页无所谓,直接当作g不存在\\ 这样将乘除变为加减,使得靠近数据层的w也能较快的更新 ResNet的解决方式:y∗∗=f(x)+g(f(x))=y+y∗,则∂w∂y∗∗=∂w∂y+∂w∂y∗,这样即使∂w∂y∗很小页无所谓,直接当作g不存在这样将乘除变为加减,使得靠近数据层的w也能较快的更新
这篇博客探讨了深度神经网络中梯度消失的问题,特别是在ResNet块的上下文中。随着网络层数增加,底层参数的梯度可能会变得非常小,导致训练缓慢。ResNet通过引入残差学习,将乘除操作改为加减,从而解决了这个问题,确保靠近输入层的权重也能有效更新。此外,还讨论了在网络中添加新层的影响,以及ResNet如何通过其结构增强网络的训练稳定性。
1万+

被折叠的 条评论
为什么被折叠?



