过拟合

过拟合的根本原因是信息太少。

信息可以从两方面得到。

一是先验的假设。假设线性可分和假设n次多项式可分相比,前者假设了我们拥有了更多的信息。

二是样本。一般来说,样本越多提供的信息越多。不过如果样本并不是随机抽取的,则样本多也不能代表信息多。比如分类中可以找多个特殊的点,这些点是最优分类器分错的点,用这些点来分类,效果会出奇的差。因为我们得到的全部是负信息。这里的负信息和前面的正信息(先验假设)相乘,如果先验假设更多些(比如线性分类),这得出的结果会更差,反而过拟合会好些,但这也好不过随机猜测。

对于样本选取,怎样的数据才具有最大的正信息?支持向量机中的支持向量就是具有最大正信息的,虽然很少,只需要两个数据点,就可以达到最好的分类效果。

实际的采样中,大多数样本具有正的信息,少量样本具有负信息。去噪就是去除负信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值