数据降维原因:常用的数据库中包含百万记录和数千个变量,不是所有变量都相互独立,没有任何关联,为防止变量多重共线性的出现而导致的解空间不稳定的后果。而高维空间本身具备稀疏性,例如十维多元正态分布中仅有2%数据位于某超球面内,一维空间中大约有68%的正态分布变量值位于正负标准差之间,因而如果不做降维会在高维解空间中出现某一重要特征的重复使用造成过拟合的情况。
降维是利用变量间的相关结构来减少预测变量个数、确保预测变量相互独立、提供最小单元框架解释结果。
常用降维方法:主成分分析(PCA:Principal Components Analysis)、因子分析、用户自定义先验
PCA:是将多个变量通过线性组合选出小部分重要变量集合来描述相关结构的统计分析。这些线性组合被称为成分。PCA仅用于处理预测变量不针对目标变量。
物理意义:如果初始变量x1,x2,...,xm组成一个m维的坐标系,PCA要做的事是选出主成分表示一个新的坐标系统沿着最大变化的方向旋转原始坐标系得到。
一、主成分分析