数据分析及建模

本文详细介绍了数据降维的方法,包括主成分分析PCA、因子分析、聚类分析(如K-means和系统聚类)以及对应分析和多维尺度分析。此外,还探讨了预测性数据分析中的线性回归和逻辑回归,以及时间序列分析中的趋势分解和ARMA模型。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

版权说明:内容来自互联网及书籍



一、主成分分析PCA


1. 基本思想

主成分分析是一类常用的针对连续变量的降维方法,选取能够最大化解释数据变异的成分,将数据从高维降到低维,同时保证各个维度之间正交

主成分分析的具体方法是对变量的协方差矩阵或相关系数矩阵求取特征值和特征向量,经证明,对应最大特征值的特征向量,其方向正是协方差矩阵变异最大的方向,依次类推,第二大特征值对应的特征向量,是与第一个特征向量正交且能最大程度解释数据剩余变异的方向,而每个特征值则能够衡量各方向上变异的程度。因此,进行主成分分析时,选取最大的几个特征值对应的特征向量,并将数据映射在这几个特征向量组成的参考系中,达到降维的目的(选择的特征向量数量低于原始数据的维数)。


当分析中所选的变量具有不同的量纲,且差别比较大的情况下,应选择相关系数矩阵进行主成分分析。

主成分分析适用于变量之间具有相关关系,变量在三维空间中呈现椭球形分布。多变量之间有显著的强线性相关,表明主成分分析是有意义的。


2.主成分的计算公式



3.散点图解



原始数据可以使用原坐标系中的向量来表示,协方差矩阵的特征向量为AB,由于A方向的变异远大于B方向,因此,将所有点映射到A上,并使用A作为参考系来᧿述数据,这样忽略了数据在B方向上的变异,但却将二维的数据降低到了一维。

4. 主成分分析的步骤









5. 选择主成分个数

主成分分析的目的是简化变量,一遍保留的主成分应该小于原始变量的个数。根据主成分分析的目的,个数选取的方法是有区别的。
具体保留几个主成分,应该遵循两个原则(两个原则同时使用,可只考虑一个):
1. 单个主成分解释的变异不应该小于1(特征根值布小于1)
2. 选取的主成分的累计变异应该达到80% ~ 90%(累计特征根值占总特征根值80%以上)



6. 应用场景

主成分法的应用大致分为三个方面: 1、对数据做综合打分; 2、 降维以便对数据进行描述;3、为聚类或回归等分析提供变量压缩。在应用时要能够判断主成分法的适用性,能够根据需求选取合适的主成分数量。



二、因子分析

1. 基本思想


主成分分析时一般情况下不能对主成分所代表含义进行业务上的解读,因为主成分方向上一般不会恰好某些变量权重大,而另外一些变量权重都小,这也表现在主成分权重的形成的散点图会偏离坐标轴。 如果可以将主成分的坐标轴进行旋转,使一些变量的权重的绝对值在一个主成分上达到最大,而在其他主成分上绝对值最小,这样就达到了变量分类的目的。对应地,这种维度分析方法被称为因子分析。
因子分析是一类常用的连续变量降维并进行维度分析的方法,其经常采用主成分法作为其因子载荷矩阵的估计方法,在特征向量方向上,使用特征值的平方根进行加权,最后通过因子旋转,使得变量的权重在不同因子上更加两极分化。常用最大方差法进行因子旋转,这种方法是一种正交旋转。


2. 正交旋转因子模型


3. 因子分析的一般步骤


4. 因子载荷

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值