梯度下降

最新推荐文章于 2024-05-28 07:45:00 发布

原创最新推荐文章于 2024-05-28 07:45:00 发布 · 261 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

18 篇文章

订阅专栏

1. 梯度下降（Gradient Descent）

在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降是最常采用的方法之一
对多元函数的各个分量求偏导数，把求得的各个分量的偏导数以向量的形式写出来，就是梯度。
例：二元函数 $z=f(x,y)$

\nabla f (x, y) = (\partial f \partial x, \partial f \partial x)

$\nabla f(x,y) = (\frac{\partial f}{\partial x},\frac{\partial f}{\partial x})$
向量的梯度
矩阵的梯度
http://www.junnanzhu.com/?p=141

几何意义：函数在该点处沿着梯度的方向变化最快，变化率最大（为该梯度的模）。
梯度下降最小化；梯度上升最大化

2. 无处不在的梯度下降

2.1 感知机

训练数据集 $D = {(x_1,y_1),(x_2,y_2),..,(x_m,y_m)}$
最小化损失函数

m i n w, b L (w, b) = - \sum x i \in M y i (w \cdot x i + b)

$\mathop {min}_{w,b} L(w,b)= - \sum_{x_i \in M}y_i(w \centerdot x_i+b)$
损失函数的梯度

\nabla w L (w, b) = - \sum x i \in M y i x i

$\nabla_wL(w,b) = -\sum_{x_i \in M }y_ix_i$

\nabla b L (w, b) = - \sum x i \in M y i

$\nabla_bL(w,b) = -\sum_{x_i \in M }y_i$
采用随机梯度下降，不是一次使用M中的所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。
随机选取一个误分类点

(xi,yi) ( x i , y i ) $(x_i,y_i)$ ,对

w,b w , b $w,b$ 更新

w \leftarrow w + η y i x i

$w \leftarrow w+\eta y_ix_i$

b \leftarrow b + η y i

$b \leftarrow b+\eta y_i$

2.2 线性回归

f (X) = X w = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x (1) 1 x (1) 2 ⋮ x (1) m x (2) 1 x (2) 2 ⋮ x (2) m \dots \dots ⋱ \dots x (d) 1 x (d) 2 ⋮ x (d) m 111 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ w 1 w 2 ⋮ w d b ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \approx y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y 1 y 2 ⋮ y m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$f(X) = X w= \left[ \begin{matrix} x_1^{(1)} & x_1^{(2)} & \cdots & x_1^{(d)} &1 \\ x_2^{(1)} & x_2^{(2)} & \cdots & x_2^{(d)} &1 \\ \vdots & \vdots & \ddots & \vdots \\ x_m^{(1)} & x_m^{(2)} & \cdots & x_m^{(d)} &1 \\ \end{matrix} \right] \left[ \begin{matrix} w_1 \\ w_2 \\ \vdots \\ w_d \\ b \end{matrix} \right] \approx y= \left[ \begin{matrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{matrix} \right]$
损失函数

L (w) = 1 2 (y - X w) T (y - X w)

$L(w) = \frac{1}{2}(y-Xw)^T(y-Xw)$

\partial L \partial w = X T (X w - y)

$\frac{\partial L}{\partial w}= X^T(Xw-y)$
更新公式

w = w - η X T (X w - y)

$w = w-\eta X^T(Xw-y)$

2.3 逻辑回归

参考这里：第六章逻辑回归
损失函数

L (w) = \sum i = 1 m [y i (w T x i) - l n (1 + e (w T x i))]

$L(w) = \sum_{i=1}^m[y_i(w^Tx_i)-ln(1+e(w^Tx_i))]$

\partial L \partial w = \sum i = 1 m y i x T i - e w T x i 1 + e w T x i x T i

$\frac{\partial L}{\partial w}= \sum_{i=1}^my_ix_i^T-\frac{e^{w^Tx_i}}{1+e^{w^Tx_i}} x_i^T$

= \sum i = 1 m (y i - π (x i)) x T i

$=\sum_{i=1}^m(y_i-\pi(x_i))x_i^T$
更新公式

w = w - η \sum i = 1 m (y i - π (x i)) x T i

$w = w-\eta\sum_{i=1}^m(y_i-\pi(x_i))x_i^T$

2.4 神经网络

写不动了

3. 梯度下降家族（BGD，SGD，MBGD）

3.1 批量梯度下降法（Batch Gradient Descent）

梯度下降法最常用的形式，具体做法：在更新参数时使用所有的样本来进行更新。
例：上面逻辑回归的更新公式，有m个样本，求梯度的时候就用了所有m个样本的梯度数据。

3.2 随机梯度下降法（Stochastic Gradient Descent）

区别在与求梯度时没有用所有的m个样本的数据，而是仅仅选取一个样本j来求梯度。
例：上面感知机的更新公式。
训练速度：SGD每次仅采用一个样本来迭代，训练速度很快，而BGD在样本量很大的时候，训练速度不能让人满意
？?准确度：SGD仅用一个样本决定梯度方向，导致解很有可能不是最优
每次迭代并不是沿着最陡的方向走，故宏观上看最后是沿着最小值点附近徘徊
收敛速度：由于SGD一次迭代一个样本，导致迭代方向变化很大，不能很快的收敛到局部最优解。