梯度下降法

原创已于 2025-04-23 09:29:12 修改 · 1.6k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #笔记

于 2024-04-25 20:44:15 首次发布

机器学习专栏收录该内容

3 篇文章

订阅专栏

文章目录

1. 前言
2. 梯度的含义
3. 梯度下降法详解
4. 算法调优
5. 三个基本的梯度下降法
6. 梯度下降法的改进算法
参考文献

1. 前言

无约束优化问题常用的求解算法有梯度下降法（基于迭代）、最小二乘法（基于解析解）、牛顿法&拟牛顿法（基于迭代）。今天先介绍最常用的梯度下降法。

2. 梯度的含义

2.1 导数

正式介绍梯度之前，我们可以先回想一下导数。函数在某一点的导数是指函数在这个点的变化率，几何意义为函数在这个点上的切线的斜率，这个概念大家一定不陌生！（在一元情况下，梯度就是导数）
在这里插入图片描述

2.2 偏导数

函数在某一点，关于某个自变量的变化率。

比如函数 $f (x, y)$ , 分别对 $x$ , $y$ 求偏导数为： $\frac{\partial f}{\partial x}$ , $\frac{\partial f}{\partial y}$ 。

2.4 梯度

对多元函数的参数求 $\partial$ 偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。

比如对于函数 $f (x, y)$ , 分别对 $x$ , $y$ 求偏导数为： $\frac{\partial f}{\partial x}$ , $\frac{\partial f}{\partial y}$ ，其梯度向量就是 $(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$ ，简称 $g r a df (x, y)$ 或者 $\bigtriangledown f(x,y)$ 。

梯度的方向代表了函数增加最快的方向，比如对于函数 $f (x, y)$ 来说，它在 $x_0, y_0)$ 处，沿着梯度方向 $(\frac{\partial f}{\partial x_0}, \frac{\partial f}{\partial y_0})$ 移动就是使得 $f (x, y)$ 增加最快的方向，因此就最快找到函数的最大值。反之，如果我们想找的是函数的最小值，只要沿着梯度相反的方向 $(-\frac{\partial f}{\partial x_0}, -\frac{\partial f}{\partial y_0})$ 移动就可以了。

3. 梯度下降法详解

3.1 直观理解

想象我们在一座大山上，由于我们不知道怎么下山，于是只能走一步看一步，也就是每走到一个位置的时候，求解当前位置的梯度，然后沿着负梯度的方向，也就是最陡峭的方向往下走。就这样一直走下去，直到我们觉得来到了山脚下。当然，按照这个方法我们不一定能到达真正的山脚，有可能只是到达了某一个局部的山峰低处。
在这里插入图片描述

3.2 基本概念

（1）步长/学习率：每次沿着梯度的方向走的距离，决定在一次学习中，应该学习多少，以及多大程度上更新参数；
（2）特征：样本的输入部分，比如一个单特征样本 $x_0,y_0)$ ，它的特征就是 $x_0$ ，标签是 $y_0$ ；
（3）假设函数：在监督学习中，为了拟合输入样本和输出值的关系，我们会设置一个假设函数 $h_{\theta}(x)$ ，对于单个特征的 $m$ 个样本 $x_0^i,y_0^i), i=1...m$ ，我们可以采用的拟合函数是： $h_{\theta}(x) = \theta_0 + \theta_1x$
（4）损失函数：用于评估拟合值和真实label之间差距的效果函数，损失函数越小，则拟合的越好。

3.3 算法流程（代数理解）

（1）确定假设函数和损失函数；

比如对于线性回归，假设函数表示为 $h_{\theta}(x_1, x_2,...,x_n)=\theta_0+\theta_1x_1+...+\theta_nx_n$ ，其中 $\theta_n$ 为模型参数；

损失函数可以表示为：
$J(\theta_1, \theta_2,..., \theta_n)=\frac{1}{2m}\sum_{j=1}^{m}(h_{\theta}(x_1^j, x_2^j,...,x_n^j)-y_j)^2$

（2）初始化参数；

步长 $\alpha$ ：比如1；
$\theta_n$ ：比如0；
终止距离 $\epsilon$ ：比如10.

（3）梯度下降法迭代过程

step 1: 计算当前位置，对于 $\theta_i$ ，其梯度的表达式：

$\frac{\partial J(\theta_1, \theta_2,..., \theta_n)}{\partial \theta_i} = \frac{1}{m}\sum_{j=1}^{m}(h_{\theta}(x_1, x_2,...,x_n)-y_j)x_i$

step 2: 用步长乘以损失函数的梯度，得到当前位置的下降距离；

即： $\alpha * \frac{\partial J(\theta_1, \theta_2,..., \theta_n)}{\partial \theta_i}$

step 3: 判断是否停止迭代；

确认对于所有的 $\theta_i$ ，其梯度下降的距离是否小于停止距离 $\epsilon$ ，如果是，则当前所有的 $\theta_i$ 为最终参数，否则进入下一步；

step 4：更心所有的 $\theta_i$ :
$\theta_i = \theta_i-\alpha*\frac{\partial J(\theta_1, \theta_2,..., \theta_n)}{\partial \theta_i}$

4. 算法调优

（1）算法参数的调优：步长、终止距离、初始参数的选择；
（2）归一化：让样本数据的大小在同一个维度；常用的方法是对每个特征 $x$ ，求出其期望 $\bar x$ 和标准差 $s t d (x)$ ，然后转化为：
$\frac{x-\bar x}{std(x)}$

5. 三个基本的梯度下降法

5.1 批量梯度下降法 (Batch Gradient Descent)

每次更新参数时，使用所有样本进行更新，假设我们一共有 $m$ 个样本，则更新公式为：
$\theta_i = \theta_i-\alpha*\frac{\partial J(\theta_1, \theta_2,..., \theta_n)}{\partial \theta_i} \\ =\theta_i-\alpha * \frac{1}{m}\sum_{j=1}^{m}(h_{\theta}(x_1^j, x_2^j,...,x_n^j)-y_j)x_i^j$