损失函数的最值和鞍点的判断

L ( θ ) L(\theta) L(θ) arond θ \theta θ = θ ′ \theta' θ能用下面的公式逼近:

L ( θ ) ≈ L ( θ ′ ) + ( θ − θ ′ ) T g + 1 2 ( θ − θ ′ ) T H ( θ − θ ′ ) L(\theta)\approx L(\theta ')+(\theta-\theta')^Tg+\tfrac{1}{2}(\theta-\theta')^TH(\theta-\theta') L(θ)L(θ)+(θθ)Tg+21(θθ)TH(θθ)

梯度 g g g 是一个矢量:
g = ∇ L ( θ ′ ) g i = ∂ L ( θ ′ ) ∂ θ i g=\nabla L(\theta')\qquad g_i=\tfrac{\partial L(\theta')}{\partial \theta_i} g=L(θ)gi=θiL(θ)

在这里插入图片描述

Hessian H H H 是一个矩阵 ,表示 L的二次微分,二次微分加上一次微分可以近似L
H i j = ∂ 2 ∂ θ i ∂ θ j L ( θ ′ ) H_{ij}=\tfrac{\partial^2}{\partial\theta_i\partial\theta_j}L(\theta') Hij=θiθj2L(θ)

θ = θ ′ \theta=\theta' θ=θ时,一次微分消失,可以用二次微分表示以下情况:
在这里插入图片描述
v = θ − θ ′ v=\theta-\theta' v=θθ
假设 对于任意的 v v v
v T H v > 0 v^THv>0 vTHv>0 L ( θ ) > L ( θ ′ ) L(\theta)>L(\theta') L(θ)>L(θ)⇒ local mnima
= H H H 是一个正定矩阵即所有的特征值都是正数

假设 对于任意的 v v v
v T H v < 0 v^THv<0 vTHv<0 L ( θ ) < L ( θ ′ ) L(\theta)<L(\theta') L(θ)<L(θ)⇒ local maxima
= H H H 是一个负定矩阵即所有的特征值都是负数

有时 v T H v > 0 v^THv>0 vTHv>0,有时 v T H v < 0 v^THv<0 vTHv<0⇒ Saddle point

有时通过H可以知晓参数更新的方向!

u u u是一个 H H H征向向量, λ \lambda λ 一个 u u u的特征值,可以得出:
u T H u = u T ( λ u ) = λ ∥ u ∥ 2 u^THu=u^T(\lambda u)=\lambda\|u\|^2 uTHu=uT(λu)=λu2
λ < 0 ⇒ u < 0 ⇒ L ( θ ) < L ( θ ′ ) \lambda<0 ⇒ u<0 ⇒ L(\theta)<L(\theta') λ<0u<0L(θ)<L(θ)

沿着特征向量的方向更新方向。

L ( θ ) ≈ L ( θ ′ ) + 1 2 ( θ − θ ′ ) T H ( θ − θ ′ ) ⇒ L ( θ ) < L ( θ ′ ) L(\theta)\approx L(\theta ')+\tfrac{1}{2}(\theta-\theta')^TH(\theta-\theta')⇒ L(\theta)<L(\theta') L(θ)L(θ)+21(θθ)TH(θθ)L(θ)<L(θ)

举例

在这里插入图片描述
L = ( y ^ − w 1 w 2 x ) 2 = ( 1 − w 1 w 2 ) 2 L=(\hat y-w_1w_2x)^2=(1-w_1w_2)^2 L=(y^w1w2x)2=(1w1w2)2
倒数为:
∂ L ∂ w 1 = 2 ( 1 − w 1 w 2 ) ( − w 2 ) ∂ L ∂ w 1 = 2 ( 1 − w 1 w 2 ) ( − w 1 ) \tfrac{\partial L}{\partial w_1}=2(1-w_1w_2)(-w_2) \\ \tfrac{\partial L}{\partial w_1}=2(1-w_1w_2)(-w_1) w1L=2(1w1w2)(w2)w1L=2(1w1w2)(w1)
驻点 : w 1 = 0 , w 2 = 0 w1=0,w2=0 w1=0,w2=0

H = [ 0 − 2 − 2 0 ] , λ 1 = 2 , λ 2 = − 2 \mathbf{H}= \left[ \begin{matrix} 0&-2\\ -2&0\\ \end{matrix} \right] ,\lambda_1=2,\lambda_2=-2 H=[0220],λ1=2,λ2=2

λ 2 有 特 征 值 u = [ 1 1 ] \lambda_2 有 特征值 u=\left[ \begin{matrix} 1\\1 \end{matrix} \right] λ2u=[11]
( 0 , 0 ) (0,0) (0,0)沿着这个特征向量的方向更新损失

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值