梯度下降法

原创已于 2022-03-16 15:37:01 修改 · 339 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

于 2019-08-12 17:34:56 首次发布

本文深入探讨了梯度下降法这一最优化算法的基本原理，详细解释了方向导数与梯度的概念，以及它们在最小二乘法和感知机算法中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降法是一种基于搜索的最优化方法，作用是最小化一个损失函数(最大化效用函数用梯度上升法)。

我们首先来明晰两个概念
方向导数：函数 $z = f (x, y)$ 在点 $x_0,y_0)$ 沿方向 $l⃗\vec{l}$ 的方向导数

$∂f∂l=lim⁡ρ→0+f(x0+ρcos⁡α,y0+ρcos⁡β)−f(x0,y0)ρ\frac{\partial f}{\partial l}=\lim_{\rho \rightarrow 0^+}\frac{f(x_0+\rho \cos{\alpha}, y_0+\rho \cos{\beta})-f(x_0,y_0)}{\rho}$

$∂f∂l\frac{\partial f}{\partial l}$ 是函数 $z$ 对点 $x_0,y_0)$ 沿方向 $l⃗\vec{l}$ 对 $ρ\rho$ 的变化率，也是曲面 $z$ 在点 $x_0,y_0)$ 沿方向 $l⃗\vec{l}$ 的倾斜程度。

梯度：向量 $(∂f∂x,∂f∂y)(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$ 是使 $f (x, y)$ 在一点增加最快的方向，称向量 $(∂f∂x,∂f∂y)(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$ 为可微函数 $z = f (x, y)$ 在点 $(x, y)$ 处的梯度向量，简称梯度。

记作：
$▽f=(∂f∂x,∂f∂y)=∂f∂xi+∂f∂yj\bigtriangledown f=(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})=\frac{\partial f}{\partial x}i+\frac{\partial f}{\partial y}j$

梯度 $▽f\bigtriangledown f$ 是一个向量，是可微函数 $z = f (x, y)$ 在点 $(x, y)$ 处取得最大方向导数的方向(即函数增加最快的方向)。

最小二乘法的梯度

目标函数： $J(θ)=(y−Xθ)T(y−Xθ)J(\theta)=(y-X\theta)^T(y-X\theta)$
梯度： $▽θJ=2XT(Xθ−y)\bigtriangledown_{\theta}J=2X^T(X\theta -y)$

感知机算法的梯度

目标函数： $J(w,b)=−∑x∈My(i)(wTx(i)+b)J(w,b)=-\sum_{x\in M}y^{(i)}(w^Tx^{(i)}+b)$
梯度： $▽wJ=−∑x∈My(i)x(i)\bigtriangledown_{w}J=-\sum_{x\in M}y^{(i)}x^{(i)}$
$▽bJ=−∑x∈My(i)\bigtriangledown_{b}J=-\sum_{x\in M}y^{(i)}$