梯度下降法和牛顿法学习笔记

最新推荐文章于 2024-11-13 22:08:50 发布

原创最新推荐文章于 2024-11-13 22:08:50 发布 · 364 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #人工智能

人工智能同时被 2 个专栏收录

24 篇文章

订阅专栏

机器学习

23 篇文章

订阅专栏

梯度下降法

直接举一个二次代价函数的例子，目标函数就是：
$C(\omega, b)=\frac{1}{2n}\sum_x||y(x)-\alpha||^2$
目的就是要寻找合适的 $ω\omega$ 和 $b$ ，让 $\simeq 0$ ，让 $y (x)$ 和 $α\alpha$ 大小差不多。因此需要最小化这个二次代价函数。
使用 $v$ 代替 $ω\omega$ 和 $b$ ，假设 $v=v_1,v_2$ ，其函数图像如下：
在这里插入图片描述
⾸先把我们的函数想象成⼀个⼭⾕。只要瞄⼀眼上⾯的绘图就不难理解。我们想象有⼀个
小球从⼭⾕的斜坡滚落下来。我们的⽇常经验告诉我们这个球最终会滚到⾕底。当我们在 $v_1$ 和 $v_2$ ⽅向分别将球体移动⼀个很小的量，即 $v_1$ 和 $v_2$ 时，球体将会发⽣什么情况。微积分告诉我们 C 将会有如下变化：
$∆C=\frac{\partial C}{\partial v_1}∆v_1+\frac{\partial C}{\partial v_2}∆v_2$
我们要寻找⼀种选择 $v_1$ 和 $v_2$ 的⽅法使得 $∆ C$ 为负；即，我们选择它们是为了让球体滚落。定义 $∆ v$ 为 $v$ 变化的向量， $v = (∆v1, ∆v2)^T$ 。
我们也定义 $C$ 的梯度为偏导数的向量， $(∂C∂v1,∂C∂v2)T(\frac{\partial C}{\partial v_1},\frac{\partial C}{\partial v_2})^T$ 我们⽤ $\nabla C$ 来表⽰梯度向量，即：
$∇C=(\frac{\partial C}{\partial v_1},\frac{\partial C}{\partial v_2})^T$
⽤ $∆ v$ 和梯度 $\nabla C$ 来重写 $∆ C$ 的变化:
$\simeq ∇C · ∆v$
$\nabla C$ 把 $v$ 的变化关联为 $C$ 的变化，正如我们期望的⽤梯度来表⽰。当选择： $∆ v = - η \nabla C$ 时能够让 $∆ C$ 为负数。这⾥的 $η$ 是个很小的正数（称为学习速率）。那么：
$\simeq −η∇C·∇C = η∥∇C∥^2$
由于 $C∥^2 ≥ 0$ ，这保证了 $∆ C \leq 0$ ，如果按照 $\simeq ∇C · ∆v$ 的规则去改变 $v$ ，那么 $C$ 会⼀直减小，不会增加。
因此使用 $- η \nabla C$ 计算 $∆ v$ ，来移动球体的位置
$v ： v \to v' = v - η \nabla C$
然后我们⽤它再次更新规则来计算下⼀次移动。如果我们反复持续这样做，我们将持续减小 $C$ 直到获得⼀个全局的最小值。
总结⼀下，梯度下降算法⼯作的⽅式就是重复计算梯度 $\nabla C$ ，然后沿着相反的⽅向移动，沿着⼭⾕“滚落”。我们可以想象它像这样：
在这里插入图片描述

牛顿法

考虑无约束最优化问题：
${min}_{x\in R^*}f(x)$
其中 $x^*$ 为目标函数的极小值点。
假设 $f (x)$ 具有二阶连续偏导数，若第 $k$ 次迭代值为 $x^{(k)}$ ，则可将 $f (x)$ 在 $x^{(k)}$ 附近进行二阶泰勒展开：
$f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})+\frac{1}{2}(x-x^{(k)})^TH(x^{(k)})(x-x^{(k)})$
此处， $g_k=g(x^{(k)})=∇f(x^{(k)})$ 是 $f (x)$ 的梯度向量在点 $x^{(k)}$ 的值， $H(x^{(k)})$ 是 $f (x)$ 的海塞矩阵：
$H(x)=[\frac{\partial^2f}{\partial x_i\partial x_j}]_{m\times n}$
在点 $x^{(k)}$ 的值。函数 $f (x)$ 有几只的必要条件实在极值点处的一阶导数为0，即梯度向量为0。特别是当 $H(x^{(k)})$ 是正定矩阵时，函数 $f (x)$ 的极值为极小值。
牛顿法利用极小值的必要条件：
$\nabla f (x) = 0$
每次迭代中从点 $x^{(k)}$ 开始，求目标函数的极小点，作为第 $k + 1$ 次迭代值 $x^{(k+1)}$ 。具体地，假设 $x^{(k+1)}$ 满足：
$f(x^{(k+1)})=0$
有：
$f(x)=g_k+H_k(x-x^{(k)})$
其中 $H_k=H(x^{(k)})$ ，这样就有：
$g_k+H_k(x^{(k+1)}-x^{(k)})=0$
因此：
$x^{(k+1)} = x^{(k)}-H_k^{-1}g_k$
或：
$x^{(k+1)} = x^{(k)}+p_k$
其中， $H_kp_k=-g_k$ 。
使用 $x^{(k+1)} = x^{(k)}-H_k^{-1}g_k$ 作为迭代公式的算法就是牛顿算法。