【学习笔记】李宏毅2021春机器学习课程第2.1节:局部最小值(local minima)与鞍点(saddle point)

这篇博客探讨了在优化过程中遇到的临界点问题,包括局部最小值、局部最大值和鞍点。通过泰勒级数近似和Hessian矩阵,可以区分这些点,并利用负特征值对应的特征向量来逃离鞍点。文章还引用《三体3:死神永生》中的高维概念,暗示在高维空间中可能存在更多路径来避免陷入局部最小值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Critical Point

我们常常在做Optimization的时候发现,随着参数不断update,loss不会再下降,但是我们对这个loss仍然不满意,有时候我们甚至会发现一开始我们的模型就训练不起来。

过去常见的一个猜想,是因为我们现在走到了一个地方,这个地方参数对loss的微分为0,这时gradient descent就没有办法再更新参数了,所以loss当然就不会再下降了。

image-20210314152447908

gradient为0的点,统称为critical point,这又包括了局部最小值(local minima),局部最大值(local maxima)和 鞍点(saddle point)这三种情况。

image-20210314153005913

与此同时,当我们的训练受到阻碍的时候,我们其实想要知道我们的训练到底是卡在local minima,还是卡在saddle point。这是因为如果卡在了saddle point,那么我们其实是还有路可以走的,只要找到这条路的方向,就可以将我们的loss进一步减小。

Distinguish local minima and saddle point

要判断我们当前停下的位置是local minima还是saddle point,就需要知道我们当前在error surface中所处的位置,换言之,就需要知道当前位置loss function的形状。loss function本身一般十分复杂,毕竟我们的网络就十分复杂,但我们并不需要知道整个loss function的完整形状,我们只需要知道我们当前所处区域附近大致的loss function形状就好了,这就需要用到泰勒级数近似的方法。

这里需要用到一点微积分跟线性代数的知识:

Tayler Series Approximation:泰勒级数近似,在 θ ′ θ' θ附近的loss function可以近似为下图所示的式子。

image-20210314154450970

在这个式子中:

  • 第一项是 L ( θ ′ ) L(θ') L(θ),因为当 θ ′ θ' θ逼近 θ θ θ的时候, L ( θ ) L(θ) L(θ) L ( θ ′ ) L(θ') L(θ)其实相差不大。

  • 第二项是 ( θ − θ ′ ) T g (θ-θ')^Tg (θθ)Tg g g g是一个向量,这个 g g g就是我们的gradient,也就是L的一次微分,这个gradient会被用来弥补 θ ′ θ' θ θ θ θ之间的虽然很小但仍然存在的一点点差距,当然,这个弥补还不够完整,所以我们还需要第三项。

    image-20210314155508574
  • 第三项跟Hessian有关,这个 H H H叫做Hessian,它是一个矩阵,H里面放的是L的二次微分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值