文章大纲
样本稀疏与对应的解决方案
1.数据层面
数据增广
数据增广,就是尽可能产生更多的样本,比如,一张图像,通过裁剪、变换、翻转、加噪声,获得更多样本;
合成数据
比如,通过 GAN 生成数据等。
2.模型层面
数据量比较小会导致模型过拟合, 使得训练误差很小而测试误差特别大.
模型正则化
通过在Loss Function 后面加上正则项可以抑制过拟合的产生. 缺点是引入了一个需要手动调整的hyper-parameter.
Dropout是一种神经网络正则化手段,通过随机将部分神经元的输出置零来实现.
k折交叉验证
使用k折交叉验证训练模型,可以提供模型的精度,防止划分数据的随机性。
集成弱学习器