1. 万能近似定理
李沐老师在课上大概描述过:一层的感知机,理论上可以拟合任何一个函数,但是实际上无法实现,因为优化函数接不住
用官方的语言描述:
万能近似定理(universal approximation theorem),是深度学习最根本的理论依据。它声明了在给定网络具有足够多的隐藏单元的条件下,配备一个线性输出层和一个带有任何“挤压”性质的激活函数(如logistic sigmoid激活函数)的隐藏层的前馈神经网络,能够以任何想要的误差量近似任何从一个有限维度的空间映射到到另一个有限维度空间的Borel可测的函数。
万能近似定理其实说明了理论上神经网络可以近似任何函数。
- 但实践上我们不能保证学习算法一定能学习到目标函数。
- 即使网络可以表示这个函数,学习也可能因为两个不同的原因而失败。
- 第一,训练算法可能无法找到目标函数的参数值;
- 第二,训练算法可能由于过拟合而选择了错的函数。
- 斯坦福的cs231n中提到,更深的模型更容易让目前的优化算法学习到
- 和直觉不太符合的是,该课程中进一步提出, bigger neural networks更容易学习到最优解
- 有意思的是,如果我们先用deep模型学习完,再用一个shadow去模拟这个模型,效果有可能比deep模型还好,但直接用shadow模型去学习原始样本却会表现很差。Do Deep Nets Really Need to