cs231n--深度学习训练方法

本文介绍了常用的激活函数,如Sigmoid、tanh和ReLU及其变种,并探讨了数据预处理的重要性,包括均值减除和归一化。此外,还详细讨论了权重初始化策略,如Xavier/He初始化。

Training Neural Networks

Actiation Functions

20221101101815

几种常见的激活函数
20221101101830

Sigmoid 函数

20221101101916

σ(x)=11+e−x\sigma(x) = \frac{1}{1 + e^{-x}}σ(x)=1+ex1

  • 将输入值挤压到 0到1的范围之间
  • 在历史中常用,对神经元的“firing rate” 有良好的解释

缺点:

  • sigmoid 饱和的时候,梯度消失

当输入的x过大,或者过小,local gredian 趋近于0,local 梯度与上游传来的梯度相乘,趋近于0,参数几乎无法更新

为了防止饱和,对于权重矩阵的初始化必须特别留意,如果权重过大,那么大多数神经元将饱和,网络几乎不再更新。

  • sigmoid 函数不是零中心的

这一情况将影响梯度下降的速度,因为如果输入神经元的数据X总是正数,那么 dσdW=XT∗σ′\frac{d\sigma}{dW} = X^T * \sigma'dWdσ=

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值