理解梯度下降法(Gradient Descent)

最新推荐文章于 2024-01-03 09:20:05 发布

JokerDuuuu

最新推荐文章于 2024-01-03 09:20:05 发布

阅读量641

点赞数

分类专栏：机器学习文章标签：梯度下降泰勒展开凸优化

本文链接：https://blog.youkuaiyun.com/u011724402/article/details/78922047

版权

机器学习专栏收录该内容

3 篇文章

订阅专栏

最近看了CMU的凸优化，里面对梯度下降的原理讲的比较清楚，这里将自己对梯度下降的理解做一个总结，如果有不对的地方希望大家指正。

1.梯度下降法

考虑无约束的最小化问题：

m i n x f (x) (1)

$\underset{x}{min} f(x) \tag{1}$
优化目标

f(x) $f(x)$ 是可微的凸函数。

使用梯度下降法求解上述问题的最优解 $x^{*}$ ，迭代过程为：

x k = x k - 1 - α \cdot \nabla f (x k - 1) (2)

$x^{k} = x^{k-1} - \alpha \cdot \nabla f(x^{k-1}) \tag{2}$
为什么使用上述迭代可以从下面的角度考虑。

2.解释1

将 $f(x)$ 在 $x^{k-1}$ 处进行一阶泰勒展开(第二步实际应该为 $\approx$ )

f (x) = f (x k - 1 + Δ x) = f (x k - 1) + \nabla f (x k - 1) T \cdot Δ x (3)

$\begin{align*} f(x) & = f(x^{k-1} + \Delta x) \\ & = f(x^{k-1}) + \nabla f(x^{k-1})^T \cdot \Delta x \tag{3} \end{align*}$
(3)式约等于号中的第二项是关于两个向量的内积，为了使

f(xk)<f(xk−1) $f(x^{k})<f(x^{k-1})$ ，显然

Δx $\Delta x$ 应该取为负梯度方向

−α∇f(xk−1) $- \alpha \nabla f(x^{k-1})$ ，此时两个向量夹角为180度，目标函数下降最快，其中

α $\alpha$ 用来控制目标函数下降的步长，此时(3)式变为

f (x) = f (x k - 1) - α \nabla f (x k - 1) T \cdot \nabla f (x k - 1) (4)

$f(x) = f(x^{k-1}) - \alpha \nabla f(x^{k-1})^T \cdot \nabla f(x^{k-1}) \tag{4}$
可以发现，减号右侧是大于0的，

f(x) $f(x)$ 较上一次更新有所下降，所以沿用负梯度方向不断更新变量，也就是公式(2)可以不断使

f(x) $f(x)$ 减小，因为

f(x) $f(x)$ 是凸函数，因此变量会更新到

f(x) $f(x)$ 全局最优的位置。

3.解释2

考虑 $f(x)$ 的二阶泰勒展开

f (x) \approx f (x k - 1) + \nabla f (x k - 1) T (x - x k - 1) + 1 2 (x - x k - 1) T \nabla 2 f (x k - 1) (x - x k - 1) (5)

$f(x) \approx f(x^{k-1}) + \nabla f(x^{k-1})^T(x-x^{k-1}) + \frac{1}{2}(x-x^{k-1})^{T} \nabla ^2 f(x^{k-1}) (x-x^{k-1}) \tag{5}$
不过不同的是我们使用

1tI $\frac{1}{t}I$ 替换Hessian矩阵

∇2f(x) $\nabla ^2 f(x)$

f (x) \approx f (x k - 1) + \nabla f (x k - 1) T (x - x k - 1) + 1 2 t | | x - x k - 1 | | 22 (6)

$f(x) \approx f(x^{k-1}) + \nabla f(x^{k-1})^T(x-x^{k-1}) + \frac{1}{2t}||x-x^{k-1}||^{2}_{2} \tag{6}$
我们使用(6)式最小化

f(x) $f(x)$ ，令(6)式梯度等于0得

x k = x k - 1 - t \nabla f (x k - 1) (7)

$x^{k} = x^{k-1} - t\nabla f(x^{k-1}) \tag{7}$
对比下(7)式和(2)式，变量更新公式是一样的。

在我们的印象里梯度下降是一阶优化方法，为什么(6)式看起来像使用了二阶信息？实际上这里还是使用的是一阶信息，我们将包含二阶信息的Hessian矩阵替换为了 $\frac{1}{t}I$ 。可以这样理解，(6)式包含了两部分，第一部分是原目标函数的一阶近似，如果我们直接优化一阶近似的目标函数(实际是个线性函数，一维情况下就是用曲线的切线近似)，那么变量将更新到无穷远。第二部分可以看做是一个约束项，表示我们希望优化后变量的位置与变量之前的位置尽可能接近， t <script type="math/tex" id="MathJax-Element-26">t</script>的大小决定了变量更新前后的接近程度，也就是我们上面提到的梯度下降的步长。