
Hi,你好。我是茶桁。
咱们这节课会讲到权重初始化、梯度消失和梯度爆炸。咱们先来看看权重初始化的内容。
权重初始化
机器学习在我们使用的过程中的初始值非常的重要。就比如最简单的wx+b
,现在要拟合成一个yhat,w如果初始的过大或者初始的过小其实都会比较有影响。
假设举个极端情况,就是w拟合的时候刚刚就拟合到了离x很近的地方,我们想象一下,这个时候是不是学习起来就会很快?所以对于深度学习模型权重的初始化是一个非常重要的事情,甚至有人就说把初始化做好了,其实绝大部分事情就已经解决了。
那么我们怎么样获得一个比较好的初始化的值?首先有这么几个原则
- 我们的权重值不能设置为0。
- 尽量将权重变成一个随机化的正态分布。而且有更大的X输入,那我们的权重就应该更小。
l o s s = ∑ ( y ^ − y i ) 2 = ∑ ( ∑ w i x i − y i ) 2 \begin{align*} loss & = \sum(\hat y - y_i)^2 \\ & = \sum(\s