小菜鸟对过拟合的认识

博客介绍过拟合指训练模型在训练集表现好、测试集表现差。通过两个例子说明成因,一是训练集数据少、模型参数多,二是训练集和测试集特征分布不一致。并给出解决方案,如增加训练集、调整模型复杂度、使用dropout和正则化等。

一句话概括过拟合:过拟合是指训练的模型在训练集中表现很好但是在测试集中表现不佳。(比如说训练集中的loss值只有1%,而在测试集中的loss值高10%)

举例说明过拟合及其解决方案:

例一:举一个夸张点的例子,训练集中只有两个数据,每一个数据都有三个属性,第一个数据的三个属性为(男生,24岁,1m8),第二个数据的三个属性为(女生,30岁,1m7)。我们使用一个含有三个参数的模型进行训练来对数据划分,最终训练好的模型实现的功能为:将年纪小的、身高高的男生划分为一类;将年纪大的、身高矮的女生划分为一类,从训练集(仅两个数据)中来看,正确率为100%。此时再来一个测试数据(男生,50岁,1m6),通过该训练好的模型,看身高和年龄的话,我们将其和女生化为一类;看性别的话,我们将其和男生化为一类。此时我们不难发现,对测试数据进行分类的化,正确率很低。

通过上面的例子,我们不难发现,产生过拟合的原因可能是训练集数据过少、模型参数过多(指参数数量级大于等于训练集的数量级),此时我们的解决方案为:(1)增加训练集,在CV领域一般使用数据增强方法来扩充数据集;(2)调整模型复杂度,也就是减少参数个数;(3)使用dropout,也就是在训练过程中让神经元以一定的概率不工作,其原理和减少参数个数差不多;(4)使用正则化,正则化是指通过引入额外新信息来解决机器学习中过拟合问题的一种方法,这种额外信息通常的形式是模型复杂性带来的惩罚度,正则化可以保持模型简单,还可以约束我们模型的特性,正则化项一般为参数的L2范式。

例二:我们训练了一个将猫和狗的图片进行分类的模型,其中训练集中有10张猫?的图片和10000张狗?的图片,测试集中有10张狗?的图片和10000张猫?的图片。

通过上面的例子,我们不难发现,产生过拟合的原因可能是训练集和测试集特征分布不一致。使用训练集训练模型时,由于狗的图片占比非常大,所以能够学习到很多细节。在测试集中,假如有300张猫的图片和训练集中的狗狗特征相似,将会被错误分类为狗类。这就好比家长让你学了10年画画,平时也就一个月出去锻炼一次身体,结果最后艺考的时候让你去考体育,你是不是会想,“尼玛,我能考过才怪?”。当然,处理训练集和测试集特征分布不一致的方法是准备测试集的时候注意就好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值