深度线性神经网络:每个local-min就是global-min
文献:
[6] P. Baldi and K. Hornik, “Neural networks and principal component analysis:
Learning from examples without local minima,” Neural Netw., vol. 2, no. 1, pp.
53–58, 1989. doi: 10.1016/0893-6080(89)90014-2.
[24] K. Kawaguchi, “Deep learning without poor local minima,” in Proc. Advances
Neural Information Processing Systems, 2016, pp. 586–594.
[44] C. Yun, S. Sra, and A. Jadbabaie, “Global optimality conditions for deep neural
networks,” in Proc. Int. Conf. Learning Representations, 2018.
global-min | ![]() | ![]() |
local-min | ![]() | B是开集,![]() |
strict local-min | B是开集,any other θ∈B,![]() | |
saddle point | neither a local-min or local-max |
Overparameterized network(wide network)
结论:对于非线性的过度参数化的神经网络,在一定假设条件下可以存在一个次优local-min.
任意宽度网络存在次优local-min:对于一大类平滑激活函数,任意宽和深度的网络,具有维度 的通用输入数据 xi,存在输出数据 yi,因此存在次优局部最小值。
a spurious valley:一个不包含global-min的sublevel set {θ:F(θ)≤c} 的连通分量。
setwise strict local mininum:一个紧致集(闭区间,有穷)X∈B 是一个函数f:S➡R 的strict local-min,存在>0,对于all x∈X和all y∈S\X,满足
,保持f(x)<f(y).
a suboptimal basin:函数f:S➡R是不包含global-min的setwise strict local mininum.
不存在bad valleys:
虚假谷的不存在保证了次优严格局部最小值的不存在。尽管可能仍然存在次优非严格局部最小值,但不存在虚假谷确保了,从这些次优局部最小值中的任何一个开始,存在一条非递减路径(不一定是严格递减路径)到具有较小损失的区域。
不存在bad basins:
在'不存在bad valleys'一节中限制了激活函数严格增加,本小节分析了具有任何连续激活的深度、过度参数化的神经网络。
对于任意深度的全连接神经网络满足以下假设:
①,对于
.
表示kth entry of
②最后一层隐藏神经神经元数目≥样本数目:
③每层激活函数是连续的。
假设损失函数l(a, b)相对于b是凸的。该F(θ)没有次优盆地。