算法成角之路(深度学习进阶笔记)

深度学习进阶

深度学习的实现

训练, 验证, 测试集(Train/ Dev/ Test sets)

偏差方差

神经网络正则化

dropout正则化(Dropout Regularization)

随机删除神经单元

优化方法

mini-batch梯度下降法: p186

即每个batch反向传播一次
batch过大,单次迭代耗时长
batch过小,及为随机梯度下降法,失去向量化的加速增益,会在小范围收敛或波动

动量梯度下降法(Gradient descent with Momentum)

指数加权平均

  v i = β v i − 1 + ( 1 − β ) θ i \ v_i = \beta v_{i-1} + (1-\beta)\theta_i  vi=βvi1+(1β)θi

偏差修正

不直接使用 v i v_i vi而是如下转换: v i 1 − β i v_i \over 1-\beta^i 1βivi

动量梯度下降法 Momentum

利用指数加权平均计算 d W dW dW能够消除 d W dW dW的震荡
红点是最优点

均方根 RMSprop(root mean square prop): p210

平均各个方向的梯度, 加速梯度下降:
S d w = β S d W + ( 1 − β ) ( d W ) 2 S_{dw}=\beta S_{dW}+(1-\beta )(dW)^2 Sdw=βSdW+(1β)(dW)2
W : = W − a d W S d W W:=W-a{dW \over { \sqrt {S_{dW}}}} W:=WaSdW dW

Adam优化算法(Adam optimization algorithm):p213

超参: a , β 1 , β 2 , ϵ a,\beta_1,\beta_2,\epsilon a,β1,β2,ϵ

学习率衰减(Learning rate decay)

局部最优的问题(The problem of local optima)

超参数调试 Batch正则化 程序框架

调试处理(Tuning process):p223

归一化网络的激活函数:p235

batch归一化(Batch Norm) BN:p239

Softmax回归(Softmax regression):p251

J ( w [ 1 ] J(w^{[1]} J(w[1]

结构化机器学习项目

正交化(Orthogonalization)

计算机视觉

卷积神经网络

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值