L ( θ ) L(\theta) L(θ) arond θ \theta θ = θ ′ \theta' θ′能用下面的公式逼近:
L ( θ ) ≈ L ( θ ′ ) + ( θ − θ ′ ) T g + 1 2 ( θ − θ ′ ) T H ( θ − θ ′ ) L(\theta)\approx L(\theta ')+(\theta-\theta')^Tg+\tfrac{1}{2}(\theta-\theta')^TH(\theta-\theta') L(θ)≈L(θ′)+(θ−θ′)Tg+21(θ−θ′)TH(θ−θ′)
梯度
g
g
g 是一个矢量:
g
=
∇
L
(
θ
′
)
g
i
=
∂
L
(
θ
′
)
∂
θ
i
g=\nabla L(\theta')\qquad g_i=\tfrac{\partial L(\theta')}{\partial \theta_i}
g=∇L(θ′)gi=∂θi∂L(θ′)
Hessian
H
H
H 是一个矩阵 ,表示 L的二次微分,二次微分加上一次微分可以近似L
H
i
j
=
∂
2
∂
θ
i
∂
θ
j
L
(
θ
′
)
H_{ij}=\tfrac{\partial^2}{\partial\theta_i\partial\theta_j}L(\theta')
Hij=∂θi∂θj∂2L(θ′)
当
θ
=
θ
′
\theta=\theta'
θ=θ′时,一次微分消失,可以用二次微分表示以下情况:
令
v
=
θ
−
θ
′
v=\theta-\theta'
v=θ−θ′
假设 对于任意的
v
v
v
v
T
H
v
>
0
v^THv>0
vTHv>0 ⇒
L
(
θ
)
>
L
(
θ
′
)
L(\theta)>L(\theta')
L(θ)>L(θ′)⇒ local mnima
=
H
H
H 是一个正定矩阵即所有的特征值都是正数
假设 对于任意的
v
v
v
v
T
H
v
<
0
v^THv<0
vTHv<0 ⇒
L
(
θ
)
<
L
(
θ
′
)
L(\theta)<L(\theta')
L(θ)<L(θ′)⇒ local maxima
=
H
H
H 是一个负定矩阵即所有的特征值都是负数
有时 v T H v > 0 v^THv>0 vTHv>0,有时 v T H v < 0 v^THv<0 vTHv<0⇒ Saddle point
有时通过H可以知晓参数更新的方向!
u
u
u是一个
H
H
H征向向量,
λ
\lambda
λ 一个
u
u
u的特征值,可以得出:
u
T
H
u
=
u
T
(
λ
u
)
=
λ
∥
u
∥
2
u^THu=u^T(\lambda u)=\lambda\|u\|^2
uTHu=uT(λu)=λ∥u∥2
λ
<
0
⇒
u
<
0
⇒
L
(
θ
)
<
L
(
θ
′
)
\lambda<0 ⇒ u<0 ⇒ L(\theta)<L(\theta')
λ<0⇒u<0⇒L(θ)<L(θ′)
沿着特征向量的方向更新方向。
L ( θ ) ≈ L ( θ ′ ) + 1 2 ( θ − θ ′ ) T H ( θ − θ ′ ) ⇒ L ( θ ) < L ( θ ′ ) L(\theta)\approx L(\theta ')+\tfrac{1}{2}(\theta-\theta')^TH(\theta-\theta')⇒ L(\theta)<L(\theta') L(θ)≈L(θ′)+21(θ−θ′)TH(θ−θ′)⇒L(θ)<L(θ′)
举例
L
=
(
y
^
−
w
1
w
2
x
)
2
=
(
1
−
w
1
w
2
)
2
L=(\hat y-w_1w_2x)^2=(1-w_1w_2)^2
L=(y^−w1w2x)2=(1−w1w2)2
倒数为:
∂
L
∂
w
1
=
2
(
1
−
w
1
w
2
)
(
−
w
2
)
∂
L
∂
w
1
=
2
(
1
−
w
1
w
2
)
(
−
w
1
)
\tfrac{\partial L}{\partial w_1}=2(1-w_1w_2)(-w_2) \\ \tfrac{\partial L}{\partial w_1}=2(1-w_1w_2)(-w_1)
∂w1∂L=2(1−w1w2)(−w2)∂w1∂L=2(1−w1w2)(−w1)
驻点 :
w
1
=
0
,
w
2
=
0
w1=0,w2=0
w1=0,w2=0
H = [ 0 − 2 − 2 0 ] , λ 1 = 2 , λ 2 = − 2 \mathbf{H}= \left[ \begin{matrix} 0&-2\\ -2&0\\ \end{matrix} \right] ,\lambda_1=2,\lambda_2=-2 H=[0−2−20],λ1=2,λ2=−2
λ
2
有
特
征
值
u
=
[
1
1
]
\lambda_2 有 特征值 u=\left[ \begin{matrix} 1\\1 \end{matrix} \right]
λ2有特征值u=[11]
从
(
0
,
0
)
(0,0)
(0,0)沿着这个特征向量的方向更新损失