随机梯度下降算法详解
1. 预备知识
- Lipschitz函数的次梯度 :若函数 $f : A →R$ 满足对于所有的 $u,v ∈A$,有 $| f (u) −f (v)| ≤ρ ∥u −v∥$,则称 $f$ 是 $\rho$-Lipschitz 函数。对于凸开集 $A$ 上的凸函数 $f$,$f$ 在 $A$ 上是 $\rho$-Lipschitz 的,当且仅当对于所有的 $w ∈A$ 和 $v ∈∂f (w)$,有 $|v|≤\rho$。
- 证明思路 :
- 若对于所有的 $v ∈∂f (w)$ 有 $|v|≤\rho$,由次梯度定义 $f (w) −f (u) ≤⟨v,w −u⟩$,结合柯西 - 施瓦茨不等式可得 $f (w) −f (u) ≤\rho |w - u|$,同理可证 $f (u) - f (w) ≤\rho |w - u|$,所以 $f$ 是 $\rho$-Lipschitz 的。
- 若 $f$ 是 $\rho$-Lipschitz 的,取 $w ∈A$,$v ∈∂f (w)$,因为 $A$ 是开集,存在 $\epsilon > 0$ 使得 $u = w + \epsilon v / |v|$ 属于 $A$,根据次梯度定义和 Lipschitz 性质可推出 $|v|≤\rho$。
- 证明思路 :
- 次梯度下降 :梯度下降算法可以推广到不可微函数,通过使用 $f (w)$ 在 $w(t)$ 处的次梯度代替梯度。
超级会员免费看
订阅专栏 解锁全文
690

被折叠的 条评论
为什么被折叠?



