主成分分析:多变量评估的统计数据挖掘方法
1. 引言
主成分分析(PCA)由卡尔·皮尔逊于1901年发明,最初是一种数据降维技术。它通过将多个原始变量进行线性组合,转化为几个新变量,从而揭示多个变量之间的相互关系,使得新变量能够保留原始变量的大部分变异信息。
传统上,PCA多被视为数据降维技术,但其实它也可作为一种重新表达技术。重新表达是指通过应用算术、数学和截断等函数,改变原始变量的组成、结构或规模,以挖掘出比原始变量更具信息的新变量。本文将PCA定位为探索性数据分析(EDA)技术,展示其在常见和不常见应用中的作用,并介绍其在构建准交互变量方面的独特应用。
2. EDA重新表达范式
2.1 不同变量数量下的重新表达目标和方法
| 变量数量 | 重新表达目标 | 方法 |
|---|---|---|
| 1 | 对称化 | 带箱线图的幂阶梯法 |
| 2 | 直线化 | 带凸起规则的幂阶梯法 |
| 多个 | 保留变异 | PCA |
PCA通过将多个原始变量重新表达为几个新变量,保留了原始变量间的大部分变异信息。虽然关于PCA作为重新表达技术的文献相对较少,但将其
超级会员免费看
订阅专栏 解锁全文
1048

被折叠的 条评论
为什么被折叠?



