神经网络各种优化算法

https://www.cnblogs.com/guoyaohua/p/8542554.html

梯度下降法是最流行的优化算法之一,并且目前为止是优化神经网络常见的算法。梯度下降是一种通过在目标函数梯度的反向上更新模型参数,来最小化模型参数的目标函数的方法。学习率决定了我们前往(局部)极小值的步长。

梯度下降算法变种,它们不同之处在于我们在计算目标函数梯度时所用数据量的多少。依据数据的规模,我们在更新参数的准确性和执行一次更新所用时间之间进行一种折中。

对于SGD或者MBGD而言,每次使用的损失函数只是通过一个小批量的数据确定的,其函数图像与真实全集损失函数有所不同,所以其求解的梯度也包含有一定的随机性,在鞍点或者局部最小值点的时候,震荡跳动,因为在此点处。而BGD,则优化会停止不动,如果是mini-batch或者SGD,每次找到的梯度都是不同的,就会发生震荡,来回跳动。

梯度下降法

为了便于理解,我们将使用只包含一个特征的线性回归来展开。此时线性回归的假设函数为:

h_{\theta} (x^{(i)})=\theta_1 x^{(i)}+\theta_0

其中i=1,2,...,m表示样本数。

对应的目标函数(代价函数为):

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值