机器学习笔记——9 模型选择与特征选择
对于一个学习问题,往往我们有不同的模型可以选择,本文首先介绍两种模型选择(model selection) 的通用做法,分别是交叉验证法(cross validation)和k重交叉验证法(k-folds cross validation)。本文的第二部分介绍了两种特征选择(feature selection) 的方法,分别是包围式特征选择(wapper feature selection) 以及过滤式特征选择(filter feature selection)。
模型选择
在前面我们看到了选择模型时,需要对模型的偏差和方差进行权衡,现在假设我们选用的模型集合为M={ M1,...,Mk}M = \{M_1,...,M_k\}M={ M1,...,Mk},如果我们仅仅是对每一类模型MiM_iMi进行训练,得到一些假设hih_ihi。最后在各个hih_ihi中挑选出具有最小经验误差的h∗h^*h∗作为结果,那么显然我们会倾向于那些比较复杂的模型M∗M^*M∗。
交叉验证法
交叉验证法比较好的解决了这个问题,我们将样本集分为StrainS_{train}Strain,ScvS_{cv}Scv。然后利用StrainS_{train}