1.4 特征工程
就模型本身而言,直接输入的是特征,从原始数据到特征的过程包括数据清洗、数据处理和特征工程。有时候数据处理和特征工程的界限不那么明确。这里探讨几个对模型有直接影响的特征工程的步骤。
(1)特征标准化
输入到模型的特征,应该有相同的量纲。就逻辑回归而言,特征量纲的差异对模型系数有影响。比如特征1的单位是0-1000米,特征2的单位是0-1公里,变化范围大的,其系数就会相对小(很多人喜欢用系数大小来判断特征重不重要,这里就要考虑是否进行了标准化。还有一个更重要的因素是系数的显著性)。对于另一些基于距离的模型,比如Kmeans,特征量纲的差异甚至会造成模型错误。所以一般情况下,特征标准化是特征工程的必要过程。
(2)特征变换
1)线性变换。包括主成分分析、因子分析等。在社会学和心理学常用的模型——结构方程模型中,提取出的主成分或因子又叫做潜变量。
上面这个图说明了主成分分析的原理:按照方差最大的原则,逐步找到样本维度空间(原始维度是x1,x2)中(主成分)方向(y1,y2)。主成分不一定有实际的业务意义。
因子分析是指,将主成分进行旋转,得到易于理解的概念,比如智商等。举个例子,原始数据包括数学成绩、物理成绩、英语成绩和语文成绩,最