模型选择:
对备选的m个模型(A1,A2,A3,......Am),分别计算每个模型的误差(可以用所有样本训练误差或者K重交叉检验(k一般取10,k越大对数据的利用率越高)
得到的误差,总之用一种手段评判模型的好坏),然后选择其中最好的一个。
特征选择:
(1)前向搜索(设置初始特征集为空,然后逐步添加特征,如选择加入后能使模型误差最小的特征),后向搜索(初始特征集为全部特征,然后逐步删除特征,
如选择删除后模型误差最小的特征),逐步选择(前向搜索和后向搜索的结合,动态地加入和删除特征)。
(2)滤特征选择:按照某种标准对特征进行排序,选择前k个(k可以人为指定,也可以用模型选择的方法确定)。这个标准可以是:(a)与因变量的相关系数,
协方差,KL距离。(b)每个特征的方差大小,或做主成分分析。
特征选择的(1)方法是一类比较”好“的特征选择方法,但缺点是计算量太大。(2)方法效果一般不如(1)好,但计算量小。
可以看出,PCA只是分析自变量之间的相关性,没有考虑因变量。PCA得到的每个特征都是多个特征的线性组合,而前向搜索等算法得到的特征是原始特征的子集。