做深度学习的时候,损失不是只在局部极小值的梯度是0,还有可能是其他情况,比如鞍点,鞍点就是梯度为0且区别于局部极小值和局部极大值的点。
如果损失收敛在局部极小值,所在位置已经是损失最低的点了,但是鞍点旁边还是有路可以让损失更低,只要逃离鞍点,有可能让损失更低。
当损失函数复杂时,无法知道完整损失函数的样子,但是可以通过给定一组参数如θ′\theta 'θ′,其附近的损失函数用泰勒级数近似写出来。
L(θ)≈L(θ′)+(θ−θ′)Tg+12(θ−θ′)TH(θ−θ′) L(\theta) \approx L({\theta}')+(\theta-{\theta}')^Tg+\frac{1}{2}(\theta-{\theta}')^TH(\theta-{\theta}') L(θ)≈L(θ′)+(θ−θ
【深度学习】学习笔记——局部极小值和鞍点(Datawhale X 李宏毅苹果树AI夏令营)
于 2024-08-27 22:54:27 首次发布