神经网络学习(基于吴恩达视频学习)

  • 神经网路的权重初始化方法

  1. pre-training

Pre-training阶段 将神经网络每一层都取出,构造一个auto-encoder(自编译器)做训练 使得输入层和输出层保持一致 参数得以更新 形成初始值

Fine-tuning阶段 将pre-train过的每一层放回神经网络 利用pre-train阶段得到的参数初始值和训练数据对模型进行整体调整

  1. Random initalization

  1. Xavier intialization

尽可能的让输入和输出服从相同的分布,这样就能够避免后面层的激活函数的输出值趋向于0

  1. He intialization(针对于隐藏层使用ReLU的)

  • 梯度下降法(求解机器学习算法的模型参数)

  1. 通过求目标函数的导数来寻求目标函数最小化的方法

  1. 找到目标函数最小化时的取值所对应的自变量的值 目的是为了找自变量x

  • 梯度的数值逼近
  • Mini batch

  在梯度下降中,需要对所有的样本进行处理,如果样本规模较大时,效率会比较低。

这个时候,如果把所有的都迭代一轮的话,这时候的梯度下降叫做full bath。

但是为了提高效率,把样本分为等量的自己,每个子集叫做mini batch。

运行方式:分别用一个for循环遍历mini batch,针对每一个进行一次梯度下降,然后更新参数w 和b 的值。将遍历一次所有的样本的行为叫做epoch也就是一个世代。

  • 指数加权平均

1.原理:通过赋予近期数据更大的权重,从而对数据序列的有效平滑,指数加权平均的优点在于,它能够根据数据的更新情况动态地调整个数据的权重,有效的处理数据序列的噪声和异常值。(具体可以在下文中查找)

深度学习与指数加权平均:原理、应用与发展 (baidu.com)

2.指数加权平均的偏差修正

2.5 指数加权平均的偏差修正-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授-优快云博客

  • 动量梯度下降法

之前梯度下降法的参数更新公式:

W := W - \alpha \nabla W\\ b := b- \alpha \nabla b

但是在动量梯度中:

对于100次的梯度下降中求得的梯度序列为:

{∇W1​,∇W2​,∇W3​.........∇W99​,∇W100​}

对应动量梯度为:


动量梯度下降法(gradient descent with momentum)-优快云博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值