线性模型和神经网络模型的最大区别,在于神经网络的非线性导致大多数我们感兴趣的代价函数都变得非凸。这意味着神经网络的训练通常使用迭代的,基于梯度优化,仅仅使得代价函数达到一个非常小的值;而不是像训练线性回归模型的线性方程求解器,活着用于训练逻辑回归或SVM的凸优化算法那样可以保证全局收敛。凸优化从任意一种初始参数出发都会收敛(理论上如此,在实践过程中也很鲁棒但可能会遇到数值问题)。用于非凸损失函数的随机梯度下降没有这种收敛性的保证,并且对参数的初始值很敏感。对于前馈神经网络,将所有的权重值初始化为小随机数是很重要的。偏置可以初始化为零活着小的正值。