canoco5主成分分析步骤_主成分分析之信用等级评估实例应用讲解

本文介绍了主成分分析的应用,包括降低数据空间维数、多维数据图形表示、构造回归模型等,并通过应收账款信用评估、农业生态经济系统、学生成绩数据等案例说明。还阐述了因子分析,指出其与主成分分析的区别,最后提及两者的注意事项。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ddcdc2d27eb4a2fd37f39156a5571e0c.gif

主成分分析

主要有以下几方面的应用:

1.主成分分析能降低所研究的数据空间的维数。而低维代替高维所损失的信息很少。即使只有一个主成分Yl(即 m=1)时,这个Fl仍是使用全部X变量(p个)得到的。例如要计算Fl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。

 2.  多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布情况,由图形可直观地看出各样品在主分量中的地位。

3.由主成分分析法构造回归模型。即把各主成分作

为新自变量代替原来自变量x做回归分析。

例1  

应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款项,包括应收销货款、其它应收款和应收票据等。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。应收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,评价顾客的信用等级,了解顾客的综合信用程度,做到“知己知彼,百战不殆”,对加强企业的应收账款管理大有帮助。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的5C方法,5C的目的是说明顾客违约的可能性。 

1、品格(用X1表示),指顾客的信誉,履行偿还义务的可能性。企业可以通过过去的付款记录得到此项。

2、能力(用X2表示),指顾客的偿还能力。即其流动资产的数量和质量以及流动负债的比率。顾客的流动资产越多,其转化为现金支付款项的能力越强。同时,还应注意顾客流动资产的质量,看其是否会出现存货过多过时质量下降,影响其变现能力和支付能力。

3、资本(用X3表示),指顾客的财务实力和财务状况,表明顾客可能偿还债务的背景。

4、附带的担保品(用X4表示),指借款人以容易出售的资产做抵押。

5、环境条件(用X5表示),指企业的外部因素,即指非企业本身能控制或操纵的因素。 

首先抽取了10家具有可比性的同类企业作为样本,又请8位专家分别给10个企业的5个指标打分,然后分别计算企业5个指标的平均值,如表。 

5748107848ae83b08ee56bceb9d76a62.png 834327316792f36563ecb613eb6ddcae.png

第一主成份的贡献率为84.6%,

第一主成份

 Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5的各项系数大致相等,且均为正数,说明第一主成份对所有的信用评价指标都有近似的载荷,是对所有指标的一个综合测度,可以作为综合的信用等级指标。可以用来排序。将原始数据的值中心化后,代入第一主成份Z1的表示式,计算各企业的得分,并按分值大小排序:

204e9504f63187ea03bb90dd459861d7.png

在正确评估了顾客的信用等级后,就能正确制定出对其的信用期、收帐政策等,这对于加强应收帐款的管理大有帮助。

例2

我们根据表1给出的数据,对某农业生态经济系统做主成分分析

表1  某农业生态经济系统各区域单元的有关数据 

8e7a6d486618359358e2c97e001c501c.png

步骤如下:(1)将表1中的数据作标准化处理,然后计算相关系数矩阵(见表2)。

表2 相关系数矩阵 

9c5ece7aa8e4f61f8795047ec089e7ea.png

表3 特征值及主成分贡献率

85d9b5184ffd3a26f9907e543ca09c7c.png

(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表3)。由表3可知,第一,第二,第三主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第一、第二、第三主成分z1,z2,z3即可。 

(3)对于特征值=4.6610,=2.0890,=1.0430分别求出其特征向量e1,e2,e3,再用公式(2)计算各变量x1,x2,…,x9在主成分Z1,Z2,Z3上的载荷(表4)。

表4   主成分载荷 

85d9b5184ffd3a26f9907e543ca09c7c.png

分析:

①第一主成分z1与x1,x5,x6,x7,x9呈显出较强的正相关,与x3呈显出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第一主成分z1是生态经济结构的代表。

②第二主成分z2与x2,x4,x5呈显出较强的正相关,与x1呈显出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第二主成分z2代表了人均资源量。 

③第三主成分z3,与x8呈显出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第三主成分在一定程度上代表了农业经济结构。

④另外,表4中最后一列(占方差的百分数),在一定程度反映了三个主成分z1、z2、z3包含原变量(x1,x2,…,x9)的信息量多少。 

显然,用三个主成分z1、z2、z3代替原来9个变量(x1,x2,…,x9),描述农业生态经济系统,可以使问题更进一步简化、明了。

例3

成绩数据(student.sav)

100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。

6d1b7e68261d3197ca6fdf62f9768036.png

例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。

对于我们的数据,SPSS输出为

62a2cc4b0b64de28386bbf359036c9a1.png

这里的Initial Eigenvalues是数据相关阵的特征值。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。 

特征值的贡献还可以从SPSS的图看出

790a691c83cc80b31b75e9e2e7533180.png

如何将原始六个变量的线性组合确定成两个主成分?SPSS可以输出下面的表。

7c5d19a8102724ba30fabdb5c3946cbc.png

这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分作为数学、物理、化学、语文、历史、英语这六个原先变量的线性组合,系数(比例)为-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 

如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,原先六个变量x1,x2,x3,x4,x5,x6与第一和第二主成分y1,y2的关系为:

X1=-0.806y1 + 0.353y2

X2=-0.674y1 + 0.531y2

X3=-0.675y1 + 0.513y2

X4= 0.893y1 + 0.306y2

X5= 0.825y1 + 0.435y2

X6= 0.836y1 + 0.425y2

这些系数称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。

比如x1表示式中y1的系数为-0.806,这就是说第一主成分和数学变量的相关系数为-0.806。

相关系数(绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。

可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。

ca12f8118263d882230979536f7858ae.png

该图左面三个点是数学、物理、化学三科,右边三个点是语文、历史、外语三科。图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还是可以识别的。

因子分析

主成分分析从原理上是寻找椭球的所有主轴。因此,原先有几个变量,就有几个主成分。

而因子分析是事先确定要找几个成分,这里叫因子(factor)。

这使得在数学模型上,因子分析和主成分分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点,它还多一道工序:因子旋转(factor rotation);这个步骤可以使结果更好。

当然,对于计算机来说,因子分析并不比主成分分析多费多少时间。从输出的结果来看,因子分析也有因子载荷(factor loading)的概念,代表了因子和原先变量的相关系数。但是在输出中的因子和原来变量相关系数的公式中的系数不是因子载荷,也给出了二维图;该图虽然不是载荷图,但解释和主成分分析的载荷图类似。

对于我们的数据,SPSS因子分析输出为

5e878876b334debfd5c15aa012ca6f88.png

这里,第一个因子主要和语文、历史、英语三科有很强的正相关;而第二个因子主要和数学、物理、化学三科有很强的正相关。因此可以给第一个因子起名为“文科因子”,而给第二个因子起名为“理科因子”。从这个例子可以看出,因子分析的结果比主成分分析解释性更强。 

这两个因子的系数所形成的散点图可以直观看出每个因子代表了一类学科。

1068edffcf3dfc5fe5d43a1c9d853d76.png

可以根据前面的因子得分公式(因子得分系数和原始变量的标准化值的乘积之和),算出每个学生的第一个因子和第二个因子的大小,即算出每个学生的因子得分f1和f2

人们可以根据这两套因子得分对学生分别按照文科和理科排序。当然得到因子得分只是SPSS软件的一个选项(可将因子得分存为新变量、显示因子得分系数矩阵)

因子分析和主成分分析的一些注意事项

可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。

另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。

在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系。

在用因子得分进行排序时要特别小心,特别是对于敏感问题。由于原始变量不同,因子的选取不同,排序可以很不一样。

557241829f0f112f2cc548a86ae877b6.gif

相关推荐

主成分分析(PCA)统计与MATLAB函数实现

•  END  •

模友们可能已经发现:现在公众号推送文章的顺序,已经不会按时间排列了。这种变化,可能会让各位模友错过我们每天的推送。

所以,如果你还想像往常一样,聚焦数模乐园,就需要将“数模乐园”标为星标公众号,同时在阅读完文章后,别忘了给一个“在看”哦。

星标步骤

(1)点击页面最上方“数模乐园”,进入公众号主页

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

99cb2e55539ef16fd941ad2478b91799.gif a4edee7dc75f998b733b4dc8b92d06ab.png

扫码关注我们

124660ffe1839bdbd1e57bad6a9609f6.png

2020国际赛QQ参赛群

f48d312154df369de20c6c9cfab269fd.png 1716cf931c2e971b82b0574489341a68.gif

球分享

1716cf931c2e971b82b0574489341a68.gif

球点赞

1716cf931c2e971b82b0574489341a68.gif

球在看

Canoco for Windows 是新一代的 CANOCO 软件,是生态学应用软件中用于约束与非约 束排序的最流行工具。Canoco for Windows 整合了排序以及回归排列方法学,以便得到健 全的生态数据统计模型。Canoco for Windows 包括线性曲线单峰方法。使用 Canoco for Windows 进行排序,能够洞察: ● 生物群落结构 ● 植物与动物群落以及它们的环境之间的联系 ● 一个对环境(或)其生物群落的假设冲击所能造成的影响 ● 在生物群落上进行的复杂生态学生态毒理学实验的相关处理所能造成的影响 一个排序被计算出来后,排序图可以立即显示在显示器上。Canoco 具体独特的能力,可 以说明用协变量表示的背景变异,而用它的扩展工具来进行排列测试,包括测试的互动效果。 这些独特的特性使得 Canoco for Windows 能特别有效的解决应用研究方面的问题。 二 软件模块 The Canoco for Windows 软件包主要包含以下几个模块: ● Canoco for Windows:软件包的核心,用来指定要分析的数据排序模型,排序方法 以及分析结果的查看等基本操作命令均被集中在该模块的对话框中 ● WcanoImp : 将以电子表格形式(Excel 等)保存的外部数据转化为 CANOCO 识别的 形式 ● CanoDraw 4.0 for Windows:用来绘制各种类型的排序图,同时也可以生成多种等值 线回归模型图,并进一步深层次发掘排序结果,该模块可以直接从主程序界面工 具栏激活 ● CanoMerge:合并 Canoco 识别的 dta 类型数据文件,并可以将数据文件以带制表分 隔符的文本形式输出(基本常用统计软件均兼容该类型文件),同时该模块具有滤掉 低频率物种的功能 ● PrCoord:对特定数据集进行主坐标分析以及冗余分析
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值