数据分解技术:从原理到应用
1. 数据分解基础
1.1 方差类型
在数据中,每个特征都有一定的变化,我们可以通过计算围绕均值的方差来衡量这种变化性。方差越大,变量中包含的信息就越多。当我们将变量放入一个集合中时,可以比较两个变量的方差来确定它们是否相关,这是衡量它们值相似程度的一种方法。变量的方差可以分为以下两种类型:
- 独特方差(Unique variance) :某些方差是被考察变量所独有的,它与其他任何变量的变化都没有关联。
- 共享方差(Shared variance) :某些方差与一个或多个其他变量共享,这会在数据中产生冗余。冗余意味着我们可以在不同的特征和许多观测中找到相同的信息,只是值略有不同。
为了确定共享方差的原因,以及处理独特方差和共享方差,人们创建了因子分析(Factor Analysis)和主成分分析(Principal Component Analysis,PCA)。
1.2 因子分析的起源
早在许多机器学习算法被提出之前,心理测量学(Psychometrics),即心理学中关注心理测量的学科,就试图找到一种统计方法来有效测量人格维度。由于人格等方面无法直接测量,问卷和心理测试只能暗示这些值。心理学家了解奇异值分解(SVD),并尝试将其应用于这个问题。他们注意到共享方差,如果某些变量几乎相同,他们认为这些变量应该有相同的根本原因。于是,心理学家创建了因子分析,通过对一个新创建的跟踪共同方差的矩阵应用SVD,希望浓缩所有信息并恢复称为因子(Factors)的新有用特征。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



