梯度下降法

最新推荐文章于 2019-09-19 10:47:17 发布

原创最新推荐文章于 2019-09-19 10:47:17 发布 · 228 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习专栏收录该内容

33 篇文章

订阅专栏

梯度下降法

梯度下降法是求解无约束最优化问题的一种最常用的方法，有实现简单的优点。梯度下降法是迭代算法，每一步需要求解目标函数的梯度向量。

假设 $f(x) = w*x + b$ ，现有已知值 $x_0,x_1...x_i$ ，求f(x)最小值时的 $w,b$ ，则：

循环输入 $x_0,x_1...x_i$ ，求f(x_k):

$f(x_k) = w*x_k+b$

求参数 $w,b$ 的梯度，如果梯度变化小于阀值，则停止迭代：

w的梯度： $\frac{df(x_k)}{dw} = x_0$

b的梯度： $\frac{df(x_k)}{db} = 1$

假设步长为 $a$ ，更新参数 $w,b$ ：

$w = w - a*x_k$
$b = b-a * 1$

更新函数，继续迭代

$f(x) = (w - a*x_k) * x + (b-a)$

1､推导

我们的目标是求 $f(x)$ 的最小值对应的 $x$ 值。
根据泰勒公式对函数 $f(x)$ 进行一阶泰勒展开：

$f(x) = f(x_0) + f'(x_0)*(x-x_0) + o(x_0)$

假设 $f(x_1)<f(x_0)，x_1=x_0+d$ ：

$f(x_1) = f(x_0) + f'(x_0)*(x_1-x_0) + o(x_0)$
即：
$f(x_1)=f(x_0)+f'(x_0)*d+o(x_0)$

梯度下降认为o(α)（即二次导数及以上的项）为无穷小，忽略不计，所以：

$f(x_1)=f(x_0)+d*f'(x_0)$

1､假设在区间 $(x_1，x_0)$ 内，函数 $f(x)$ 单调递增， $f(x)∝x$ ，那么比 $f(x_0)$ 更小的值对应的 $x'$ 肯定小于 $x_0$ ，所以 $d = - d$ ：

$x' = x_0 - d*f'(x_0)$

2､假设在区间 $(x_0，x_1)$ 内，函数 $f(x)$ 单调递减， $f(x)∝-x$ ，那么比 $f(x_0)$ 更小的值对应的 $x'$ 肯定大于 $x_0$ ，所以 $d = d$ ：

$-x' = -x_0 + d*f'(x_0)$
即
$x' = x_0 - d*f'(x_0)$

综上述1､2可得 $x$ 的更新函数：

$x ← x - a*f'(x_0)$ ；a为步长

由上述推导可知当步长a较大时， $x'$ 有可能会超出区间 $(x_0，x_1)$ ，从而导致梯度爆炸；当a较小时，有可能导致的变化很小，从而无法找到最优解，这就是梯度消失。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。