1)问题描述
2)协方差矩阵的限制
3)多元高斯分布的边缘分布和条件分布
4)因子分析的例子
5)因子分析模型
6)因子分析的EM估计‘
7)简单总结
1)问题描述
之前我们考虑的训练数据中样例
的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。
然而当训练样例个数m太小,甚至m<<n的时候,原来的方法就会产生很大的偏差;对于多元高斯分布而言,由于
变成奇异阵(
),也就是说
不存在,根本没办法拟合训练样本。
这里我们讨论,在m<<n的情况下,通过使用称为因子分析(Factor Analysis)的方法达到降低训练样本的特征数n的目的,使n尽量接近m甚至小于m,这样使用多元高斯分布(Multivariate Gaussian distribution)仍然能够拟合训练样本。
2)协方差矩阵的限制
令
, 其中,
,这样,协方差矩阵就变成对角线元素完全相同,其他元素都为0的矩阵,反映到二维高斯分布图上就是圆形。
当我们要估计出完整的
时,我们需要m>=n+1才能保证在最大似然估计下得出的
是非奇异的。然而在上面的假设限定条件下,只要m>=2都可以估计出限定的
。这样做的缺点也是显然易见的,我们认为特征间独立,这个假设太强。接下来,我们给出一种称为因子分析的方法,使用更多的参数来分析特征间的关系,并且不需要计算一个完整的
。
3)多元高斯分布的边缘分布和条件分布
在讨论因子分析之前,先看看多元高斯分布中,条件和边缘高斯分布的求法。这个在后面因子分析的EM推导中有用。
假设x是有两个随机向量组成(可以看作是将之前的
分成了两部分)
, 其中
,
,那么
。

因子分析是一种在m<<n时处理高维数据的无监督学习方法,通过假设特征间存在低维结构来降低特征数。该方法基于多元高斯分布,通过EM算法估计转换矩阵和误差协方差,揭示数据中潜在的因子,实现数据的降维和结构理解。因子分析不同于回归分析和主成分分析,关注的是不可观测的潜在因子,旨在捕获原始变量的主要信息。

最低0.47元/天 解锁文章
144

被折叠的 条评论
为什么被折叠?



