梯度下降法

本文深入探讨了梯度下降法这一最优化算法的基本原理,详细解释了方向导数与梯度的概念,以及它们在最小二乘法和感知机算法中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

梯度下降法是一种基于搜索的最优化方法,作用是最小化一个损失函数(最大化效用函数用梯度上升法)。

我们首先来明晰两个概念
方向导数:函数z=f(x,y)z=f(x,y)z=f(x,y)在点(x0,y0)(x_0,y_0)(x0,y0)沿方向l⃗\vec{l}l的方向导数

∂f∂l=lim⁡ρ→0+f(x0+ρcos⁡α,y0+ρcos⁡β)−f(x0,y0)ρ\frac{\partial f}{\partial l}=\lim_{\rho \rightarrow 0^+}\frac{f(x_0+\rho \cos{\alpha}, y_0+\rho \cos{\beta})-f(x_0,y_0)}{\rho}lf=limρ0+ρf(x0+ρcosα,y0+ρcosβ)f(x0,y0)

∂f∂l\frac{\partial f}{\partial l}lf是函数zzz对点(x0,y0)(x_0,y_0)(x0,y0)沿方向l⃗\vec{l}lρ\rhoρ的变化率,也是曲面zzz在点(x0,y0)(x_0,y_0)(x0,y0)沿方向l⃗\vec{l}l的倾斜程度。

梯度:向量(∂f∂x,∂f∂y)(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})(xf,yf)是使f(x,y)f(x,y)f(x,y)在一点增加最快的方向,称向量(∂f∂x,∂f∂y)(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})(xf,yf)为可微函数z=f(x,y)z=f(x,y)z=f(x,y)在点(x,y)(x,y)(x,y)处的梯度向量,简称梯度。

记作:
▽f=(∂f∂x,∂f∂y)=∂f∂xi+∂f∂yj\bigtriangledown f=(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})=\frac{\partial f}{\partial x}i+\frac{\partial f}{\partial y}jf=(xf,yf)=xfi+yfj

梯度▽f\bigtriangledown ff是一个向量,是可微函数z=f(x,y)z=f(x,y)z=f(x,y)在点(x,y)(x,y)(x,y)处取得最大方向导数的方向(即函数增加最快的方向)。

最小二乘法的梯度

目标函数:J(θ)=(y−Xθ)T(y−Xθ)J(\theta)=(y-X\theta)^T(y-X\theta)J(θ)=(yXθ)T(yXθ)
梯度:▽θJ=2XT(Xθ−y)\bigtriangledown_{\theta}J=2X^T(X\theta -y)θJ=2XT(Xθy)

感知机算法的梯度

目标函数:J(w,b)=−∑x∈My(i)(wTx(i)+b)J(w,b)=-\sum_{x\in M}y^{(i)}(w^Tx^{(i)}+b)J(w,b)=xMy(i)(wTx(i)+b)
梯度:▽wJ=−∑x∈My(i)x(i)\bigtriangledown_{w}J=-\sum_{x\in M}y^{(i)}x^{(i)}wJ=xMy(i)x(i)
▽bJ=−∑x∈My(i)\bigtriangledown_{b}J=-\sum_{x\in M}y^{(i)}bJ=xMy(i)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值