深度学习笔记017：残差网络ResNet(Resnet是并连操作而非串联操作)

最新推荐文章于 2024-10-23 21:41:47 发布

原创最新推荐文章于 2024-10-23 21:41:47 发布 · 355 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #pytorch #神经网络

深度学习专栏收录该内容

180 篇文章

订阅专栏

这篇博客探讨了深度神经网络中梯度消失的问题，特别是在ResNet块的上下文中。随着网络层数增加，底层参数的梯度可能会变得非常小，导致训练缓慢。ResNet通过引入残差学习，将乘除操作改为加减，从而解决了这个问题，确保靠近输入层的权重也能有效更新。此外，还讨论了在网络中添加新层的影响，以及ResNet如何通过其结构增强网络的训练稳定性。

在这里插入图片描述

$两种实现：右侧如果加不回去可能需要通道变换$

两种ResNet块;

ResNet的梯度计算

$y=f(x)，省略Loss,假设y里包含了Loss\\w是靠近底层的一个参数，w=w-学习率*\frac{\partial y}{\partial w} \\所以不希望\frac{\partial y}{\partial w}很小，特别小的时候，数值稳定性会发生问题，$
$看看在网络上再加一层会怎样,比如在原有的十个卷积层上再加十层？：y^*=g(f(x))\\ \frac{\partial y^*}{\partial w}=\frac{\partial g(y)}{\partial y}*\frac{\partial y}{\partial w}\\ 假设加的g层的拟合能力比较强的话，\frac{\partial g(y)}{\partial y}会是一个比较小的数值\\ 这样越深的话，越是底层就越会出现问题$

$ResNet的解决方式：\\ y^{**}=f(x)+g(f(x))=y+y^*,则\frac{\partial y^{**}}{\partial w}=\frac{\partial y}{\partial w}+\frac{\partial y^*}{\partial w},\\ 这样即使\frac{\partial y^*}{\partial w}很小页无所谓，直接当作g不存在\\ 这样将乘除变为加减，使得靠近数据层的w也能较快的更新$