梯度下降专栏——局部下降最快的方向就是梯度的负方向

本文深入探讨了梯度下降法背后的数学原理,解释了为何选择负梯度方向作为搜索方向,以及如何利用泰勒展开进行损失函数的近似,实现模型参数的最优解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.声明

author:修远

此系列专栏为Datawhale下开源项目《李宏毅机器学习》决策树的补充内容。作者水平有限,还望学习者批评指正。

我们在李宏毅老师的课中可以看到求解loss function的最小值时,使用的是梯度下降。那现在的问题是,为什么李老师用负梯度方向作为搜索方向,李宏毅老师已经在课中讲到,这里我将对其进行一丢丢的补充

2.目录:
  • 泰勒展开
    • 泰勒近似推导
  • 下降方法
    • 梯度下降方法

接下来将从上述问题来进行讲解

[外链图片转存失败(img-pmWQ3bXi-1564328065459)(WEBRESOURCE652f05d60964633b2804f0ffca24b9ae)]

3、泰勒展开

泰勒展开是一个用函数在某点的信息描述取值的公式,在已知函数在某一点的各阶导数值的情况下,泰勒展开可以用这些导数值系数构建一个多项式来近似函数子啊这一点的领域中的值

3.1泰勒近似推导

在如图点(a,f(a))(a,f(a))(a,f(a))附近,与曲线y=f(x)y=f(x)y=f(x)最近似的直线方程是:曲线上点(a,f(a))(a,f(a))(a,f(a))的切线,切线方程为:
y=f(a)+f′(a)(x−a)y=f(a)+f'(a)(x-a)y=f(a)+f(a)(xa)
这就是f在x=ax=ax=a的线性化,右边是次数为1的多项式。如下图给出了曲线y=f(x)y=f(x)y=f(x)在x=a的切线,看起来不像是整个曲线的近似

不过,它确实为曲线在(a,f(a))(a,f(a))(a,f(a))附近的近似。事实上,我们把(a,f(a))(a,f(a))(a,f(a))放大,如下图。可以看到,切线与曲线y=f(x)并没有很大的差别,图像放的越大,他们的差别就越小。

[外链图片转存失败(img-zSEw34cV-1564328065460)(19ED9AAA899F468497E12259E286CB4B)]

在点(a,f(a))(a,f(a))(a,f(a))附近,与曲线y=f(x)最近似的二次曲线方程是什么? (采用相同的函数)
最近似于曲线y=f(x)的二次曲线方程为

P2(x)=f(a)+f′(a)(x−a)+f′′(a)2(x−a)2P_2(x)=f(a)+f'(a)(x-a)+\frac{f''(a)}{2}(x-a)^2P2(x)=f(a)+f(a)(xa)+2f(a)(xa)2
若我们忽视P2(x)P_2(x)P2(x)方程右边的最后一项,就得到f(a)+f′(a)(x−a)f(a)+f'(a)(x-a)f(a)+f(a)(xa),这就变为之前的线性化了。所以可以认为最后的项f′′(x)2(x−a)2\frac{f''(x)}{2}(x-a)^22f(x)(xa)2为所谓的二阶修正项。这也意味着我们应该能够找到比切线更好的近似

泰勒近似定理

若f在x=a光滑,则在所有次数为N或更低的多项式中,当x在a附近时,最近似于f(x)的是

PN(x)=f(a)+f′(a)(x−a)+f′′(a)2!(x−a)2+f(3)(a)3!(x−a)2+...+f(N)(a)N!(x−a)NP_N(x)=f(a)+f'(a)(x-a)+\frac{f''(a)}{2!}(x-a)^2+\frac{f^{(3)}(a)}{3!}(x-a)^2+...+\frac{f^{(N)}(a)}{N!}(x-a)^N PN(x)=f(a)+f(a)(xa)+2!f(a)(xa)2+3!f(3)(a)(xa)2+...+N!f(N)(a)(xa)N

用求和表示该公式为:

PN(x)=∑n=0Nf(n)(a)n!(x−a)nP_N(x)=\sum_{n=0}^N\frac{f^{(n)}(a)}{n!}(x-a)^nPN(x)=n=0Nn!f(n)(a)(xa)n

4.下降方法

接下来我们将产生一个优化点列x(k)x^{(k)}x(k),k=1…,其中

xt=xt−1+Δxx^t=x^{t-1}+\Delta xxt=xt1+Δx

4.1梯度下降方法

在李宏毅老师的课堂中,想要做的就是最小化loss function,其中w,bw,bw,b是要求解的模型参数。梯度下降法常用来求解这种无约束最优化问题,它是一种迭代方法:选取初始值w0,b0w_0,b_0w0,b0,然后选择−▽f(x)-\bigtriangledown f(x)f(x)作为搜素方向不断地迭代,更新w,bw,bw,b的值,进行损失函数的最小化

f(xt)f(x^t)f(xt)xt−1x^{t-1}xt1处进行泰勒展开
f(xt)=f(xt−1+Δx)≈f(xt−1)+f′(xt−1)Δx+f′′(xt−1)Δx22f(x^t)=f(x^{t-1}+\Delta x)\approx f(x^{t-1})+f'(x^{t-1})\Delta x + f''(x^{t-1}) \frac{\Delta x^2}{2}f(xt)=f(xt1+Δx)f(xt1)+f(xt1)Δx+f(xt1)2Δx2
那我们也可以将上述写为在机器学习中参数形式,将L(wt)L(w^t)L(wt)wt−1w^{t-1}wt1处进行一阶泰勒展开

L(wt)=L(wt−1+wx)L(w^t)=L(w^{t-1}+w x)L(wt)=L(wt1+wx)

=L(wt−1)+L′(wt−1)Δx= L(w^{t-1})+L'(w ^{t-1}) \Delta x=L(wt1)+L(wt1)Δx

其中Δx\Delta xΔx是微小矢量,它的大小就是“搜索步径(步长)”。Δx\Delta xΔx是微小矢量,可表示为μδx\mu \delta xμδx,其中α\alphaα为标量,δx\delta xδx为单位向量。将其的代入上式中

L(wt)=L(wt−1)+L′(wt−1)αδxL(w^t)=L(w^{t-1})+L'(w^{t-1})\alpha \delta xL(wt)=L(wt1)+L(wt1)αδx

对于下降法而言,主要wtw^twt不是最优点就成立

L(wt−1)&lt;L(wt)L(w^{t-1})&lt;L(w^t)L(wt1)<L(wt)
则有

L′(wt−1)αδx&lt;0L&#x27;(w^{t-1})\alpha \delta x &lt;0L(wt1)αδx<0

L′(wt−1)δx&lt;0L&#x27;(w^{t-1}) \delta x &lt;0L(wt1)δx<0

可知δx\delta xδxL′(wt−1)L&#x27;(w^{t-1})L(wt1)都为向量,δx\delta xδx为单位向量,L′(wt−1)L&#x27;(w^{t-1})L(wt1)为当前位置的梯度方向

我们想要是使两个向量的乘积小于0,并且能够达到负最大值。所以δx\delta xδxL′(wt−1)L&#x27;(w^{t-1})L(wt1)互为反向。当δx\delta xδxL′(wt−1)L&#x27;(w^{t-1})L(wt1)(当前梯度)的负方向的时候,能够让L′(wt−1)δxL&#x27;(w^{t-1}) \delta xL(wt1)δx尽可能的小。

[外链图片转存失败(img-48FTGLhC-1564328065462)(E6FE65D6A3DF4C87B86F99EC3B803A1C)]

上述我们可以知道δx\delta xδxL′(wt−1)L&#x27;(w^{t-1})L(wt1)的反方向, 可以得到:

δx=−L′(wt−1)∣∣L′(wt−1)∣∣\delta x=- \frac{L&#x27;(w^{t-1})}{||L&#x27;(w^{t-1})||}δx=L(wt1)L(wt1)

将得到的δx\delta xδx代入Δx\Delta xΔx中得到

Δx=xt−xt−1=μδx=αL′(wt−1)\Delta x=x^{t}-x^{t-1}=\mu \delta x=\alpha L&#x27;(w^{t-1})Δx=xtxt1=μδx=αL(wt1)

在李宏毅老师的学习任务中,需要去最小化L(w,b),其中w,b是要求解的模型参数。梯度下降法常用来求解这种无约束最优化问题,它是一种迭代方法:选取初值w0,b0w^0,b^0w0,b0,不断迭代,更新,进行loss function的最小化。所以迭代形式可以写为:

wt=wt−1−αL′(wt−1)w^{t}=w^{t-1}-\alpha L&#x27;(w^{t-1})wt=wt1αL(wt1)

bt=bt−1−αL′(bt−1)b^{t}=b^{t-1}-\alpha L&#x27;(b^{t-1})bt=bt1αL(bt1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值