Cousera - Machine Learning for Neural Networks - 课程笔记 - Week 9

最新推荐文章于 2022-02-04 16:23:56 发布

原创最新推荐文章于 2022-02-04 16:23:56 发布 · 369 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习

Cousera-课程笔记专栏收录该内容

141 篇文章

订阅专栏

本文探讨了过拟合产生的原因及解决策略，包括增加数据、限制模型复杂度、使用正则化技术等，并介绍了贝叶斯方法在模型泛化中的应用。

Overview of ways to improve generalization

过拟合出现的原因
- 训练数据包含了输入到输出的规律性信息，同时还存在着一定的采样错误
- 模型拟合数据时无法保证拟合到“正确的”规律上来，因而均进行拟合
- 如一个模型对错误的规律拟合的过好了，就会导致其泛化能力非常差
避免过拟合的方法
- 获取更多的数据（有了更多数据，过拟合问题自然会缓解）
- 一定程度地限制模型的能力，让其能够刚好在正确的规律上有足够的拟合效果且在错误的规律上有不太好的拟合效果
- 平均数个不同形式模型的结果（或者通过在不同的数据子集上训练得到不同的模型，bagging）
- （贝叶斯方法）使用一个模型，取若干组不同的权重，这些权重下模型可以很好工作，测试时对所有权重下的结果进行平均
控制网络的拟合能力的方法
- 网络架构：限制隐藏层数量和每层的隐藏单元的数量
- 提前终止：从较小权重开始，在发生过拟合现象之前终止拟合过程
- 权重衰减：使用惩罚量或者约束量（L2惩罚，L1惩罚）削弱大权重
- 噪声：向权重或者激活值添加噪声
一般情况下，上述方法会混合使用
如何选择控制模型拟合能力的元参数：
- 错误的思路：选择在测试集上表现最优的权重——拟合效果好不代表泛化效果好
- 交叉验证：
  - 数据分割为三组
    - 训练数据：进行模型参数训练
    - 验证数据：用于学习参数，同时用于决定哪些参数组表现的最好
    - 测试数据：用于最终的性能结果评定（只在最后用一次，作为模型效果的无偏估计）
  - 可以将数据划分成1个测试集和N个子集，每一次训练在N-1个子集上训练（另外1个作为验证机），得到N个不同的验证结果（N折交叉验证）
提前终止：
- 面对大量数据，重复训练变得不可能
- 从小权重开始训练，随着训练过程不断增大，当模型在验证集上表现变差时，终止训练
- 通过阻止模型权重变得过大，避免过拟合问题

Limiting the size of the weights

L2 权重惩罚量
- 惩罚目标是权重的平方值
- 常称之为权重衰减
- 保持整个权重很小，除非存在一个很大的误差导数
- 优化目标为误差加惩罚量： $\frac \lambda 2 \sum \limits_i w_i^2$ ，导数为 $KaTeX parse error: Undefined control sequence: \part at position 7: \frac{\̲p̲a̲r̲t̲ ̲C}{\part w_i} =…$
- 其防止网络使用一些不需要的权重（高阶参数），使模型的泛化效果更好，更加平滑
其他的惩罚量：
- L1，惩罚目标是权重的绝对值，会使很多权重绝对等于零
- 一些惩罚量在导数上，远离零的自变量会有更小的导数，使得小权重更趋近于零，同时存在一部分大权重
权重限制：
- 不同于分别处理每一个权重，只对最大的平方值的权重向量进行限制
- 当平方值超限，就等比例缩小之以符合限制
- 优点：
  - 值的设置更加合理
  - 避免权重在0附近徘徊
  - 避免权重爆炸
- 相比于将权重往0压，权重限制能够让权重更倾向于大梯度，抑制小梯度

Using noise as a regularizer

对于一个简单网络的输入，加入一个高斯噪声
- 噪声的方差会被权重的平方值放大
- 在一个简单网络中，线性出会将放大后的方差加到最终的输出
- 对最后的平方误差产生了一个额外的项
- 尝试最小化误差时，就会对含有权重平方的一项进行优化，因此将权重变小了
- 对于一个简单线性网络，其和L2正规化等价
向一个更复杂的网络的权重加入噪声
- 在多层非线性网路中，噪声的作用和L2正规化并不等价
- 在RNN中表现更好
在激活值中使用噪声，可能有很好的表现，但会很慢

Introduction to the full Bayesian approach

贝叶斯框架假设：我们对任何事物都有一个先验分布
- 先验可能非常模糊
- 对于一组数据，将先验分布和概率项混合，得到后验分布
- 概率向包含了，基于模型参数，观察数据可能有多大概率
  - 倾向于令数据可行的模型参数
  - 可能会与先验对抗
  - 有足够的数据时，概率项总能成功
贝叶斯理论： $p(W∣D)=p(W)p(D∣W)p(D)p(W|D)=\frac{p(W)p(D|W)}{p(D)}$
- 即对于一组数据 $D$ ，权重向量 $W$ 的后验分布 $p (W ∣ D)$
- 后验分布可以通过权重的先验分布 $p (W)$ 与基于权重的数据观测结果 $p (D ∣ W)$ 相乘得到
- 最后进行一次正规化（概率和为1）
- $p (D)$ 与权重无关，在选择合适的权重值时，可以忽略这一部分的影响