主成分分析、因子分析、聚类的概览与比较

本文对比了主成分分析、因子分析和聚类分析三种统计方法,详细介绍了各自的概念、方法、优缺点及应用场景。主成分分析通过降维保留大部分信息,因子分析关注变量间的相关关系,而聚类分析则依据相似性划分群体。三种方法各有特点,适用于不同的数据处理需求。

主成分分析、因子分析、聚类的概览与比较

主成分分析利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),用综合指标来解释多变量的方差——协方差结构,即每个主成分都是原始变量的线性组合,且各主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的综合指标即为主成分。

求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。
        (实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)
注意事项:

1.由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;

2.对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;

3.主成分分析不要求数据来源于正态分布

4.在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。

 

优点:首先它利用降维方法用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。再次它在应用上侧重于信息贡献影响力综合评价

缺点:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确,命名清晰性低。

 

聚类分析将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。

其主要依据是聚到同一个数据集中的样本应该彼此相似,而属于不同组的样本应该足够不相似。

常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。

注意事项:

1.系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类

2. K-均值法要求分析人员事先知道样品分为多少类

3.对变量的多元正态性,方差齐性等要求较高。

 

应用领域:细分市场,消费行为划分,设计抽样方案等</

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值