01、什么是主成分分析法
简要概括主成分分析法的作用:把能反映某种特征的很多指标汇总成一个指标。
举例而言,一家银行的流动性可以体现在它的现金资产占比和定期存款占比上——
银行A的现金资产占比是0.12,定期存款占比是0.37;
银行B现金资产占比是0.09,定期存款占比是0.5。
哪一家流动性更好呢?
如果我们能确定存在一个公式比如: 流动性指标 = 30%现金资产占比 + 70%定期存款占比 ,就可以衡量它们的流动性差异了。
银行A=(0.30.12+0.70.37)
银行B=(0.30.09+0.70.5)
决定各个变量应该以什么比例组合成一个新的综合指标,就是“主成分分析法”。
它的原理和推导过程并不难,有线性代数的基础是很容易看懂的。有兴趣的可以去百度一下,有很多详尽教学的。无名在这里不做赘述。
02、R语言进行数据读取
首先,因为一般需要处理的数据量巨大,手动输入程序中是不现实的。我们需要一条语句从csv文件中读取数据。
首先打开一个excel,在其中输入你的数据。第一行是表头,列一下你用了哪些变量。为了结果看的方便,无名把每个变量都命名为I1、I2以此类推。每一列对应一个变量的数据。
数据复制粘贴填好以后,左上角菜单里,点“另存为”,在另存为的“其它格式”中,选择另存为成“CSV(逗号分隔)”。另存为的路径最好不要是桌面,直接放在D盘E盘中,因为R语言对中文的支持不算好,路径中最好能不出现中文。
数据格式截图如下:
另存为成CSV文件后,在R语言中运行语句:
x <- data.frame(read.csv(“D:/PCA.csv”, head = T, sep = “,”))
“D:/PCA.csv”这个就是我放在D盘下的CSV数据文件,你们自行改成自己的文件路径就行。
用x作为存储数据的变量我就是图方便,随手打的,你们可以把变量叫别的名字。
注意点:
- 指标反映的内容