一、前言
在了解了分类中决策树的基础知识后,在《数据挖掘导论》书中106面提到了模型的过分拟合问题,107面出现的训练误差和检验误差曲线对比,引发了我学习和总结的想法。
二、分类模型的误差和拟合
书中提及分类的误差大致分为两种:训练误差(training error)和泛化误差(generalization error)。训练误差的别名:再代入误差(resubstitution error)或者表现误差(apparent error)。训练误差是指在训练记录上误分类样本的比例。泛化误差是指模型在未知记录上的期望误差。
书中对拟合一词没有过多解释,而是直接拿来使用了:一个好的分类分类模型不仅要能够很好地拟合训练数据,而且对未知样本也要能够准确的分类。百度对拟合一词的解释是:形象的说,拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。因为这条曲线有无数种可能,从而有各种拟合方法。按我一开始的想法,拟合是带有动词含义的趋近,模拟,但是我无法直观理解,究竟这线要拟合的对象是谁?目的是什么?随着老师开始讲解预剪枝的内容,新的问题又出现了,检验集居然是从训练集里提取出来的?按我的理解,原始数据是会被分成两堆,80%的训练集和20%的测试集。我带着测试集的问题去询问老师,同时得到了拟合的答案:检验集存在的意义似乎是调整参数,那么拟合对象显然就是难以用直观方法得到的数学关系,或者说函数。
三、训练集 测试集 检验集
训练集,验证集,测试集分别是什么_数据集的验证集是什么-优快云博客一文中,我找到了对三个数据集的解释:“如果给定的样本数据充足,我们通常使用均匀随机抽样的方式将数据集划分成3个部分——训练集、验证集和测试集,这三个集合不能有交集,常见的比例是8:1:1。需要注意的是,通常都会给定训练集和测试集,而不会给验证集。这时候验证集该从哪里得到呢?一般的做法是,从训练集中均匀随机抽样一部分样本作为验证集。”接下来是我的一些思考:在对测试集和训练集的两者误差进行拟合程度调试时,过程是否带有随机性?
图像来自百度:
可以见到训练误差在随着结点数增加而减少,检验误差反之,那么从非常大视角来看,这两者的拟合程度调试时,是否可以看作两者的相似度?那么,我从训练集提取到的检验集是不是带有太大的随机性了。是否过拟合完全取决于我检验集的选择?这些问题我还需要思考。
四、
以上是我本次的学习笔记,带有本人许多思考和主观性的想法,若有错误还请大家多多指教!