深度学习标准化

叫什么就是什么

于 2018-12-04 08:30:26 发布

阅读量2.6k

点赞数 3

分类专栏： deeplearning 笔记文章标签： deep learning normalization

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_24548569/article/details/84782487

版权

深度学习标准化通过Batch Normalization、Synchronized Batch Normalization和Group Normalization等方法解决梯度消失、梯度爆炸和Internal Covariate Shift问题，加速网络训练。文章探讨了各种标准化方法的优缺点及应用场景，如Synchronized Batch Normalization在大batch训练和目标检测中的应用，以及Group Normalization对batch size的独立性，适合训练和预测阶段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习标准化

引言

何凯明在他的论文《Rethinking ImageNet Pre-training》中不使用ImageNet预训练，直接使用参数随机初始化方式（scratch），成功地训练出目标检测任务的神经网络模型。

为什么使用Batch Normalization不能从scratch训练目标检测任务的模型？

为什么何凯明使用Group Normalization和Synchronized Batch Normalization就能训练出来？

深度网络训练的问题

总所周知，深度网络训练会遇到两个大问题：梯度消失和梯度爆炸。

假设网络没有使用非线性函数，不考虑偏置b，设每层网络层输入为 $x^{(k-1)} \in \mathbb{R}^{n_{k-1} \times 1}$ ，参数是 $W^{(k)} \in \mathbb{R}^{n_{k} \times n_{k-1}}$ ，输出为 $x^{(k)} \in \mathbb{R}^{n_{k} \times 1}$ ，每一层网络层的操作是

$\begin{aligned} x^{(k)} & = W^{(k)} x^{(k-1)} \\ & = W^{(k)} W^{(k-1)} x^{(k-2)} \\ & = W^{(k)} W^{(k-1)} \cdots W^{(1)} x^{(0)} \end{aligned}$
梯度消失

假设 $\begin{pmatrix} 0.5 & 0 \\ 0 & 0.5 \end{pmatrix}$ ，即

$x^{(k)} = W^k x^{(0)} = \begin{pmatrix} 0.5^k & 0 \\ 0 & 0.5^k \end{pmatrix} x^{(0)}$

随着k的增大，x的值越来越小，从而梯度呈指数级别下降，接近于0，这会导致梯度下降参数更新的非常缓慢，降低收敛速度。

梯度爆炸

假设 $\begin{pmatrix} 1.5 & 0 \\ 0 & 1.5 \end{pmatrix}$

最低0.47元/天解锁文章

叫什么就是什么

博客等级

码龄10年

86
原创

90
点赞

330
收藏

58
粉丝

关注

私信

热门文章

分类专栏

Python 1篇
Linux 1篇
markdown 1篇
NS3 1篇
oracle 1篇
html5 1篇
html 1篇
REST 1篇
java 3篇
deeplearning.ai 17篇
笔记 49篇
machine-learning 2篇
deeplearning 7篇
自动聚焦 2篇
math 1篇

最新评论

Center Loss
Nick Throne: 在这篇paper中的3.2中，算法表格Algorithm1 .中所提的loss layer指的是那一层？
Center Loss
Nick Throne: 你好，这这篇paper中，center loss中的Cyi （同一类别的特征的平均值），指的是那一层的特征，是不是full connectted 的前一层？
《The graph neural network model》笔记
wust不吃洋葱: 讲的比某些文章好多了！
Harmonic Networks 笔记
zh3971: 感谢分享！这篇文章需要的背景知识有点多！
《AutoAugment: Learning Augmentation Strategies from Data》笔记
weixin_41944509: 我的理解是，模型效果增加应该是由于数据增强方法，只不过如果没有AutoAugmnet搜索出来的策略，靠我们手动去调参，结果可能不是最优的，搜索出来的策略比我们手动的要优，不知道这样理解对吗？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。