今天我们来深入探讨过拟合的一些高阶知识。
对于分类模型,我们总希望它是有低的训练误差和低的泛化误差。那么过拟合的产生机理中有哪些有意思的东西?在建立一个分类模型的过程中我们暂时对检验数据集一无所知(也就是暂时得不到真正泛化误差),那么此时我们是如何估计泛化误差的?
我们的目录:
目录
一、过拟合产生原因
噪声导致过拟合:1、被错误标记的样本形成的噪声。那真的是自己粗心大意的锅,无话可说了。2、有些特例,比如有些会飞的动物也会游泳,那就尴尬了,这种没有事先知识的特例,是允许存在的,是不可避免的,它也决定了分类器可以达到的最小错误率。
缺乏代表性样本导致过拟合:这个是最常见的现象,大家也很了解了。此处就不废话。
二、过拟合与多重比较过程
我们来看下Pang-Ning Tan等学者是如何举例描述过拟合和多重比较过程的关系的:(需要大家先了解决策树算法:《