图表的重要性:Anscombe的四组数据

Anscombe四重奏数据集

1973年,统计学家F.J. Anscombe构造出了四组奇特的数据。它告诉人们,在分析数据之前,描绘数据所对应的图像有多么的重要。

Anscombe's Quartet
IIIIIIIV
xyxyxyxy
10.08.0410.09.1410.07.468.06.58
8.06.958.08.148.06.778.05.76
13.07.5813.08.7413.012.748.07.71
9.08.819.08.779.07.118.08.84
11.08.3311.09.2611.07.818.08.47
14.09.9614.08.1014.08.848.07.04
6.07.246.06.136.06.088.05.25
4.04.264.03.104.05.3919.012.50
12.010.8412.09.1312.08.158.05.56
7.04.827.07.267.06.428.07.91
5.05.685.04.745.05.738.06.89


这四组数据中,x值的平均数都是9.0,y值的平均数都是7.5;x值的方差都是10.0,y值的方差都是3.75;它们的相关度都是0.816,线性回归线都是y=3+0.5x。单从这些统计数字上看来,四组数据所反映出的实际情况非常相近,而事实上,这四组数据有着天壤之别。

把它们描绘在图表中,你会发现这四组数据是四种完全不同的情况。第一组数据是大多人看到上述统计数字的第一反应,是最“正常”的一组数据;第二组数据所反映的事实上是一个精确的二次函数关系,只是在错误地应用了线性模型后,各项统计数字与第一组数据恰好都相同;第三组数据描述的是一个精确的线性关系,只是这里面有一个异常值,它导致了上述各个统计数字,尤其是相关度值的偏差;第四组数据则是一个更极端的例子,其异常值导致了平均数、方差、相关度、线性回归线等所有统计数字全部发生偏差。

来源:
http://www.reddit.com/r/math/comments/9fz3u/4_datasets_that_demonstrate_the_importance_of/
http://en.wikipedia.org/wiki/Anscombe's_quartet

R语言是一种广泛用于统计分析和图形展示的编程语言。要绘制Anscombe四个数据集的散点图,你可以按照以下步骤操作: 1. 首先,你需要安装并加载必要的包,如`ggplot2`,它是R中创建复杂图形的主要工具之一。如果还没有安装,可以使用`install.packages("ggplot2")`命令安装。 2. 然后,加载`ggplot2`和其他可能需要的库,例如`tidyverse`(包括一系列常用的数据处理和绘图函数): ```R library(ggplot2) library(tidyverse) ``` 3. Anscombe数据集已经内置在R中,可以通过`data()`函数直接获取,然后查看前几行确认数据: ```R data(anscombe) head(anscombe) ``` 4. 接下来,你可以选择一个数据集(比如第1组、第2组等),将其转化为适合`ggplot2`的格式,通常通过`gather()`函数将数据展开: ```R anscombe_long <- gather(anscombe, key = "variable", value = "value", everything()) ``` 5. 最后,使用`ggplot()`开始绘制图形,设置x轴和y轴变量,加上散点图层,并添加标题描述每个数据集: ```R anscombe_plots <- anscombe_long %>% ggplot(aes(x = value, y = variable)) + geom_point() + facet_wrap(~ variable, ncol = 2) + # 分为两列显示四个数据集 labs(title = "Anscombe's Quartet: Four Similar-looking Datasets") + theme_bw() # 使用黑白色调 print(anscombe_plots) ``` 完成以上步骤后,你将看到Anscombe四个数据集的散点图,尽管它们看起来非常相似,但仔细观察会发现一些微妙的区别。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值