1.特征构建(艺术成分最高)
特征构建指的是从原始数据中人工地构建新的特征
它需要我们从原始数据中找出一些具有物理意义的特征
2.特征提取
它是一项用不同变量的组合代替原变量的技术
它的目的是自动地构建新的特征,将原始特征转换为一组具有明显物理意义或者统计意义的特征。
下面是3个常用的对数据降维的特征提取方法
(1)主成分分析(PCA)
(2)探索性因子分析(EFA)
(3)高维标度化(MDS)
3.特征选择
在建立统计模型常常会有以下几个问题
a.模型拟合情况如何?
b.模型在新样本上预测的情况如何?
c.所有的自变量都有助于解释因变量(y),还是只有其中部分重要的自变量?
以上三个问题的共同前提是要先有一个评判模型的好与坏的标准
特征选择的主要目的是删除无信息变量或冗余变量,从而达到降维的效果。
特征选择的方法主要可以分成3类:
(1)过滤法(filter)
过滤法主要侧重于单个特征与目标变量的关系,在建模前对每个特征进行评估,选择“重要”的变量进行建模。
这里所说的重要性指的是一个量化预测变量和结果变量之间关系的粗略度量。
如果缺失某特征导致模型表现大幅度下降,表明变量重要性大。
该方法优点是计算时间上较高效。
该方法缺点是倾向于选择冗余的特征,因为他们不考虑特征之间的相关性,如果某一个特征重要性较高,所有和该特征高相关的特征重要性都会很高。
a.特征重要性度量
特征重要性度量的方式和其类型有关,分类型和连续型特征度量差别很大
这里我们按照不同的特征和因变量类型来介绍相应的常用度量。