- 神经网路的权重初始化方法
- pre-training
Pre-training阶段 将神经网络每一层都取出,构造一个auto-encoder(自编译器)做训练 使得输入层和输出层保持一致 参数得以更新 形成初始值
Fine-tuning阶段 将pre-train过的每一层放回神经网络 利用pre-train阶段得到的参数初始值和训练数据对模型进行整体调整
- Random initalization
- Xavier intialization
尽可能的让输入和输出服从相同的分布,这样就能够避免后面层的激活函数的输出值趋向于0
- He intialization(针对于隐藏层使用ReLU的)
- 梯度下降法(求解机器学习算法的模型参数)
- 通过求目标函数的导数来寻求目标函数最小化的方法
- 找到目标函数最小化时的取值所对应的自变量的值 目的是为了找自变量x
- 梯度的数值逼近
- Mini batch
在梯度下降中,需要对所有的样本进行处理,如果样本规模较大时,效率会比较低。
这个时候,如果把所有的都迭代一轮的话,这时候的梯度下降叫做full bath。
但是为了提高效率,把样本分为等量的自己,每个子集叫做mini batch。
运行方式:分别用一个for循环遍历mini batch,针对每一个进行一次梯度下降,然后更新参数w 和b 的值。将遍历一次所有的样本的行为叫做epoch也就是一个世代。
- 指数加权平均
1.原理:通过赋予近期数据更大的权重,从而对数据序列的有效平滑,指数加权平均的优点在于,它能够根据数据的更新情况动态地调整个数据的权重,有效的处理数据序列的噪声和异常值。(具体可以在下文中查找)
深度学习与指数加权平均:原理、应用与发展 (baidu.com)
2.指数加权平均的偏差修正
2.5 指数加权平均的偏差修正-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授-优快云博客
- 动量梯度下降法
之前梯度下降法的参数更新公式:
但是在动量梯度中:
对于100次的梯度下降中求得的梯度序列为:
{∇W1,∇W2,∇W3.........∇W99,∇W100}
对应动量梯度为:
动量梯度下降法(gradient descent with momentum)-优快云博客