数据可视化:差异识别与空间关系呈现
一、数据降维与多维尺度分析
1.1 多维尺度分析概念
多维尺度分析(MDS)的主要目标是在数据集中找到分组。想象在一个方形房间里,根据人的身高安排他们的站位,身高越相似,站位越接近;身高差异越大,站位越远。当引入体重这一变量时,站位会根据两个变量的综合情况进行调整。在简单的案例中,手动计算较为容易,但当数据量增大、变量增多时,就需要借助多维尺度分析。
1.2 教育数据的多维尺度分析实践
1.2.1 数据加载
education <- read.csv("http://datasets.flowingdata.com/education.csv", header=TRUE)
该数据集中每行代表一个州,包含哥伦比亚特区和美国平均值,每个州有六个变量:阅读、数学和写作 SAT 成绩、参加 SAT 的毕业生百分比、师生比例和辍学率。
1.2.2 计算距离矩阵
ed.dis <- dist(education[,2:7])
使用 dist() 函数计算每个州与其他州之间的距离,这里只使用第 2 到 7 列的数据,因为第一列是州名。
1.2.3 获取坐标
ed.mds <- cmdscale(ed.dis)
x <- ed.mds[,1]
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



