Gradient Descent Provably Optimizes Over-parameterized Neural Networks
摘要
神经网络成功的一个谜是可以通过使用随机初始化的一阶方法(如梯度下降)来实现0训练损失,即使是目标函数是非凸和非平滑的。这篇论文发现了使用ReLU激活函数的两层神经网络的一个现象。对于数据量为 n n n的数据集和采用ReLU激活函数 m m m个隐藏节点的浅层神经网络,我们使用随机初始化的梯度下降法来优化二次损失函数(quadratic loss function),可以证明:只要 m m m足够大并且数据是非退化的,将获得具有线性收敛速度的全局最优解。
以上分析主要基于以下观察:过参数化(over-parameterization)和随机初始化联合限制了每个权重向量在所有迭代过程中都接近于初始化,这允许利用强凸性来显示梯度下降将以全局线性速率收敛到全局最优。作者相信这些见解也会有助于分析深度模型以及其他一阶方法。
这篇论文忽略了神经网络的深度,还需要更加努力。而且这篇论文做出的结果是:当隐层神经元个数 m m m足够大时,将实现0训练误差(全局最优),个人觉得最重要的是实现测试误差最优。
另外,我很仔细地阅读论文,似乎发现里面有些地方很是粗糙,或是笔误,或是错误,但是对文章整体的结果并没有太大的影响。
问题定义
对于一个使用ReLU(修正线性单元,rectified linear unit)作为激活函数的两层(一个隐层)的神经网络,可以用以下式子来表示:
f ( W , a , x ) = 1 m ∑ r = 1 m a r σ ( w r T x ) f(W,a,x)=\frac{1}{\sqrt{m}}\sum \limits_{r=1}^{m}a_r\sigma\left(w_r^Tx\right) f(W,a,x)=m1r=1∑marσ(wrTx)
其中 x ∈ R d x\in \mathbb{R}^d x∈Rd是输入, w r ∈ R d w_r\in \mathbb{R}^d wr∈Rd是第一层的权重向量, a r ∈ R a_r\in \mathbb{R} ar∈R是输出的加权,以及 σ ( z ) = m a x { 0 , z } \sigma(z)=max\{0,z\} σ(z)=max{
0,z}为ReLU函数。
本文主要关注使用二次损失的经验风险最小化问题。对于数据集 { ( x i , y i ) } i = 1 n \{(x_i,y_i)\}_{i=1}^n {
(xi,yi)}i=1n,我们希望最小化以下目标:
min W ∈ R d × m L ( W ) = ∑ i = 1 n 1 2 ( f ( W , a , x i ) − y i ) 2 \min\limits_{W\in\mathbb{R}^{d\times m}}L(W)=\sum\limits_{i=1}^n\frac{1}{2}(f(W,a,x_i)-y_i)^2 W∈Rd×mminL(W)=i=1∑n21(f(W,a,xi)−yi)2
为了实现这个目标,我们使用梯度下降法来更新权重矩阵:
W ( k + 1 ) = W ( k ) − η ∂ L ( W ( k ) ) ∂ W ( k ) W(k+1)=W(k)-\eta \frac{\partial L(W(k))}{\partial W(k)} W(k+1)=W(k)−η∂W(k)∂L(W(k))
其中 η > 0 \eta>0 η>0为步长,对于每个权重向量的具体微分如下:
∂ L ( W ) ∂ w r = 1 m ∑ i = 1 n ( f ( W , a , x i ) − y i ) a r x i I ( w r T x i ≥ 0 ) \frac{\partial L(W)}{\partial w_r}=\frac{1}{\sqrt{m}}\sum\limits_{i=1}^{n}(f(W,a,x_i)-y_i)a_rx_i\mathbb{I}\left(w_r^Tx_i\ge0\right) ∂wr∂L(W)=m1i=1∑n(f(W,a,xi)−yi)arxiI(wrTxi≥0)
I \mathbb{I} I为指示函数,为真等于1,为假等于0。
对此,本文将严格地证明对于非退化的数据集以及最够大的 m m m,并且正确的随机初始化 a a a和 W ( 0 ) W(0) W(0),GD能够以线性收敛速率实现零训练损失。即有:
∀ ε > 0 , ∃ W ( K ) , s . t . L ( W ( K ) ) ≤ ε i n K = O ( log ( 1 / ε ) ) i t e r a t i o n s \forall\ \varepsilon >0, \exist\ W(K),\ \mathrm{s.t.}\ L(W(K))\le\varepsilon\ \mathrm{in}\ K=O(\log(1/\varepsilon))\ \mathrm{iterations} ∀ ε>0,∃ W(K), s.t. L(W(K))≤ε in K=O(log(1/ε)) iterations
连续时间分析(Continuous Time Analysis)
在本节中,将给出梯度流(最陡下降曲线)的结果,即具有无穷小步长的梯度下降。为此,我们考虑如下定义的微分方程:
d w r ( t ) d t = − ∂ L ( W ) ∂ w r \frac{dw_r(t)}{dt}=-\frac{\partial L(W)}{\partial w_r} dtdwr(t)=−∂wr∂L(W)
对 r ∈ { 1 , 2 , . . . , m } r\in \{1,2,...,m\} r∈{
1,2,...,m},定义 u i ( t ) = f ( W ( t ) , a , x i ) u_i(t)=f(W(t),a,x_i) ui(t)=f(W(t),a,xi)表示在时间 t t t上对输入 x i x_i xi的预测,并且令 u ( t ) = ( u 1 ( t ) , u 2 ( t ) , . . . , u n ( t ) ) ∈ R n u(t)=(u_1(t),u_2(t),...,u_n(t))\in \mathbb{R}^n u(t)=(u1(t),u2(t),...,un(t))∈Rn为在时间 t t t上的预测向量。
有以下定理:
Theorem 1(Convergence Rate of Gradient Flow):假设对所有 i ∈ { 1 , 2 , . . . , n } , ∥ x i ∥ 2 = 1 , ∣ y i ∣ ≤ C i\in \{1,2,...,n\},\lVert x_i\rVert_2=1,|y_i|\le C i∈{
1,2,...,n},∥xi∥2=1,∣yi∣≤C对常数 C C C,以及矩阵 H ∞ ∈ R n × n H^{\infty}\in \mathbb{R}^{n\times n} H∞∈Rn×n,其中 H i j ∞ = E w ∼ N ( 0 , I ) [ x i T x j I { w T x i ≥ 0 , w T x j ≥ 0 } ] H^{\infty}_{ij}=\mathbb{E}_{w\sim N(0,I)}[x_i^Tx_j\mathbb{I}\{w^Tx_i\ge0,w^Tx_j\ge0\}] Hij∞=Ew∼N(0,I)[xiTxjI{
wTxi≥0,wTxj≥0}],满足 λ min ( H ∞ ) = △ λ 0 > 0 \lambda_{\min}(H^{\infty})\overset{\triangle}=\lambda_0>0 λmin(H∞)=△λ0>0。然后对 r ∈ { 1 , 2 , . . . , m } r\in \{1,2,...,m\} r∈{
1,2,...,m},初始化 w r ∼ N ( 0 , I ) , a r ∼ u n i f [ − 1 , 1 ] w_r\sim N(0,I),a_r\sim unif[-1,1] wr∼N(0,I),ar∼unif[−1,1],并且令 m = Ω ( n 6 λ 0 4 ) m=\Omega(\frac{n^6}{\lambda_0^4}) m=Ω(λ04n6),可得:
∥ u ( t ) − y ∥ 2 2 ≤ exp ( − λ 0 t ) ∥ u ( 0 ) − y ∥ 2 2 \lVert u(t)-y\rVert_2^2\le\exp(-\lambda_0t)\lVert u(0)-y\rVert_2^2 ∥u(t)−y∥22≤exp(−λ0t)∥u(0)−y∥22
其中 i ∈ { 1 , 2 , . . . , n } , ∥ x r ∥ 2 = 1 , ∣ y i ∣ ≤ C i\in \{1,2,...,n\},\lVert x_r\rVert_2=1,|y_i|\le C i∈{
1,2,...,n},∥xr∥2=1,∣yi∣≤C的假设是为了简化,这可以通过简单放缩实现。关键的假设是 H ∞ H^{\infty} H∞矩阵是严格正定的(Xie et al. [2017], Tsuchida et al. [2017])。另外, m m m要求为 Ω ( n 6 λ 0 4 ) \Omega(\frac{n^6}{\lambda_0^4}) Ω(λ04n6),即 m m m依赖于样本数 n n n以及 λ 0 \lambda_0 λ0,下面将会证明over-parameterized对保证梯度下降找到全局最优起到很关键的作用。最后,我们可以看到 ∥ u ( t ) − y ∥ 2 2 \lVert u(t)-y\rVert_2^2 ∥u(t)−y∥22是以指数级递减至0,并且这个速率依赖于 λ 0 \lambda_0 λ0,而不依赖于 n n n。
Theorem 1的证明
首先计算每个预测的变化:
KaTeX parse error: No such environment: eqnarray at position 8: \begin{̲e̲q̲n̲a̲r̲r̲a̲y̲}̲ \frac{d}{dt}u_…
其中 H ( t ) ∈ R n × n H(t)\in \mathbb{R}^{n\times n} H(t)∈Rn×n,满足:
H i j ( t ) = 1 m x i T x j ∑ r = 1 m I { x i T w r ( t ) ≥ 0 , x j T w r ( t ) ≥ 0 } H_{ij}(t)=\frac{1}{m}x_i^Tx_j\sum\limits_{r=1}^m\mathbb{I}\{x_i^Tw_r(t)\ge0,x_j^Tw_r(t)\ge0\} Hij(t)=m1xiTxjr=1∑mI{
xiTwr(t)≥0,xjTwr(t)≥0}
有了这个定义后,我们可以用以下简洁的式子来描述:
d d t u ( t ) = H ( t ) ( y − u ( t ) ) \frac{d}{dt}u(t)=H(t)(y-u(t)) dtdu(t)=H(t)(y−u(t))
注意到 H ( t ) H(t) H(t)是一个时间依赖的对称矩阵,我们先在 t = 0 t=0 t=0是分析它的属性。我们引出下面这个引理,当 m m m很大时, H ( 0 ) H(0) H(0)的最小特征值在很大的概率内有下界。
Lemma 1.1
Lemma 1.1:如果 m = Ω ( n 2 λ 0 2 log 2 ( n δ ) ) m=\Omega(\frac{n^2}{\lambda_0^2}\log^2(\frac{n}{\delta})) m=Ω(λ02n2log2(δn)),有 P ( λ min ( H ( 0 ) ) ≥ 3 4 λ 0 ) ≥ 1 − δ P(\lambda_{\min}(H(0))\ge\frac{3}{4}\lambda_0)\ge1-\delta P(λmin(H(0))≥43λ0)≥1−δ。
证明:
Hoeffding inequality:
假定 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn为有界独立随机变量,且 X i ∈ [ a i , b i ] X_i\in [a_i,b_i] Xi∈[ai,bi],定义经验均值变量 X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum\limits_{i=1}^n X_i X=n1i=1∑nXi,满足不等式:
P ( X ‾ − E [ X ‾ ] ≥ t ) ≤ exp ( − 2 n 2 t 2 ∑ i = 1 n ( b i − a i ) 2 ) 或 P ( X ‾ − E [ X ‾ ] ≤ t ) ≥ 1 − exp ( − 2 n 2 t 2 ∑ i = 1 n ( b i − a i ) 2 ) P(\overline{X}-\mathbb{E}[\overline X]\ge t)\le \exp(-\frac{2n^2t^2}{\sum_{i=1}^{n}(b_i-a_i)^2})或\\ P(\overline{X}-\mathbb{E}[\overline X]\le t)\ge 1-\exp(-\frac{2n^2t^2}{\sum_{i=1}^{n}(b_i-a_i)^2}) P(X−E[X]≥t)≤exp(−∑i=1n(b