该文档是李宏毅关于机器学习过拟合(overfit)的指导方针,主要内容如下:
1. 机器学习框架与过拟合问题介绍
- 机器学习框架:包含训练数据和测试数据,可应用于语音识别、图像识别、说话人识别、机器翻译等任务。
- 过拟合现象:训练数据上损失小,测试数据上损失大。可能出现模型偏差(model bias)或优化问题(optimization issue)。
2. 模型偏差与优化问题的判断及解决方法
- 判断方法
- 模型偏差:模型太简单,可能在训练数据上损失大,表现为 “大海捞针但无针” 的情况。
- 优化问题:从较浅网络(或其他模型)开始,如果更深网络在训练数据上不能获得更小损失,则可能存在优化问题。
- 解决方法
- 模型偏差:重新设计模型使其更灵活,如增加特征、采用深度学习(更多神经元、层数)。
- 优化问题:采用更强大的优化技术(下一次讲座内容)。
3. 过拟合的处理方法
- 一般指导方针
- 模型选择:将训练数据分为训练集和验证集进行模型选择。
- 模型调整
- 若测试数据上损失大,可简化模型;若训练数据上损失大,可使模型更复杂。
- 增加训练数据(作业中不要求,除作业 11 外)、进行数据增强(data augmentation)。
- 针对不同模型的处理
- 灵活模型:可能导致过拟合,可增加训练数据、进行数据增强。
- 受限模型:如减少特征、提前停止(early stopping)、正则化(regularization)、采用 Dropout、减少参数及共享参数(适用于 CNN 和全连接网络)。
4. 模型选择方法
- 介绍了交叉验证(Cross Validation),包括 N - fold 交叉验证,用于选择合适的模型,避免使用公共测试数据结果选择模型导致的问题。