14周 Anscombe's quartet

最新推荐文章于 2025-02-06 15:27:21 发布

原创最新推荐文章于 2025-02-06 15:27:21 发布 · 256 阅读

1 ·

CC 4.0 BY-SA版权

本文通过Python的statsmodels库计算了Anscombe四组数据集的x与y的均值、方差及相关系数，并利用Seaborn进行了可视化展示。同时使用线性回归分析了各数据集间的联系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Part 1

For each of the four datasets…

Compute the mean and variance of both x and y
Compute the correlation coefficient between x and y
Compute the linear regression line: y=β0+β1x+ϵ (hint: use statsmodels and look at the Statsmodels notebook)

Part 2

Using Seaborn, visualize all four datasets.

hint: use sns.FacetGrid combined with plt.scatte

import pandas as pd
import seaborn as se

import matplotlib.pyplot as plt
import statsmodels.api as st



ans = se.load_dataset('anscombe')  
df = ans.groupby('dataset')
mean_var = pd.concat([df.mean(), df.var()], keys=['mean', 'variance'])
corr = pd.concat([df.corr()], keys=['correlation'])
print(mean_var)
print(corr)

data_dict = dict(list(df))
array_x, array_y = {}, {}
for key, value in data_dict.items():
    array_x[key] = value['x'].values
    array_y[key] = value['y'].values
for key in array_x.keys():
    x = st.add_constant(array_x[key])
    y = array_y[key]
    est = st.OLS(y, x).fit()
    params = est.params
    print(key, ': beta0 =', params[0], 'beta1 =', params[1])

se.set(style='whitegrid')
g = se.FacetGrid(ans, col="dataset", hue="dataset")
g.map(plt.scatter, 'x', 'y')
plt.show()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Zealous100

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Anscombe’s Quartet的数据 MATLAB绘图

专注于计算机视觉与计算机图形学

09-19

824

1、Anscombe’s Quartet的数据数据的来源 http://www.matrix67.com/blog/archives/2308 文本格式的数据直接去上面的网站复制就好啦，或者下面是我在txt里面粘贴过来的 10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58 8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76 13.0 7.58 1...

python 数据可视化---Anscombe’s quartet

weixin_33756418的博客

04-17

281

import seaborn as sns sns.set(style="ticks") # Load the example dataset for Anscombe's quartet df = sns.load_dataset("anscombe") # Show the results of a linear regression within each dataset sn...

参与评论您还未登录，请先登录后发表或查看评论

Anscombe's quartet

Wayne_Mai的博客

06-12

437

Part 1 For each of the four datasets… Compute the mean and variance of both x and y Compute the correlation coefficient between x and y Compute the linear regression line: y=β0+β1x+ϵ (hint: use st...

python学习第14周：Anscombe's quartet

wuzy38的博客

06-12

2250

about Anscombe's quartet 1973年，统计学家F.J. Anscombe构造出了四组奇特的数据。它告诉人们，在分析数据之前，描绘数据所对应的图像有多么的重要。这四组数据中，x值的平均数都是9.0，y值的平均数都是7.5；x值的方差都是10.0，y值的方差都是3.75；它们的相关度都是0.816，线性回归线都是y=3+0.5x。单从这些统计数字上看来，四组数据所反映出的实际...

高级编程技术【Anscombe's quartet】

SYSU_qsh的博客

06-12

518

Anscombe's quartet前期准备需安装的文件：Ipython、Jupyter要配置的Python的库：pandas、seaborn、statsmodels由于使用pip默认的源下载后面几个Python的库的时候很慢，所以这里分享从网上博客中找到的一个小技巧：pip可以自行指定下载源，如指定使用阿里云的镜像下载pandas：pip install -i http://mirrors.al...

Anscombe's quartet 学习

Aa545620073的博客

07-26

861

题目网址： https://nbviewer.jupyter.org/github/schmit/cme193-ipython-notebooks-lecture/blob/master/Exercises.ipynb 准备工作需安装的文件：Ipython、Jupyter 要配置的Python的库：pandas、seaborn、statsmodels 使用pip进行安装 Pa...

Anscombe's quartet-homework

冬日晴风

06-09

691

作业网址：https://nbviewer.jupyter.org/github/schmit/cme193-ipython-notebooks-lecture/blob/master/Exercises.ipynb预处理代码以及头文件：import random import numpy as np import scipy as sp import pandas as pd import m...

Python学习——Anscombe’s quartet

hmpthz的博客

06-09

499

Anscombe’s quartet Anscombe’s quartet comprises of four datasets, and is rather famous. Why? You’ll find out in this exercise. Part 1 For each of the four datasets… Compute the mean and variance ...

python第14周作业——Anscombe's quartet

gleam_的博客

06-09

791

原题目网址 Anscombe’s quartet comprises of four datasets, and is rather famous. Why? You’ll find out in this exercise. Anscombe’s quartet 数据代码 import scipy.linalg as sl import pandas as pd impor...

【漫话机器学习系列】083.安斯库姆四重奏（Anscombe‘s Quartet）

IT古董

02-06

1023

安斯库姆四重奏（Anscombe's Quartet）是一组由统计学家弗朗西斯·安斯库姆（Francis Anscombe）在 1973 年提出的四组数据集。它们的均值、方差、回归直线、相关系数等统计量几乎相同，但当绘制成图表时却呈现出完全不同的分布形态。这个四重奏展示了数据可视化的重要性，表明仅凭统计数值不能全面反映数据的真实分布。

70Echarts - 散点图（Anscombe's quartet）

阿甘兄

04-30

573

效果图源代码 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>ECharts</title>  <script src="js/echarts.min.js">&l...

Anscombe‘s Quartet 问题

Together_CZ的博客

01-17

4647

今天在进行可视化工作的时候遇上了一个名词，Anscombe's Quartet，不是很了解具体指的是什么就去WIKI百科里面查了一下，具体的链接在这里。针对这个问题又查了一些资料汇总如下： 1973年，统计学家F.J. Anscombe构造出了四组奇特的数据。它告诉人们，在分析数据之前，描绘数据所对应的图像有多么的重要。这四组数据中，x值的平均数都是...

python课的作业_Anscombe's quartet

czw0723的博客

06-09

506

题目：代码：import random import numpy as np import scipy as sp import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import statsmodels.api as sm import statsmodels....

Using and Abusing Data Visualization: Anscombe’s Quartet and Cheating Bonferroni

四纪启悟 · 数据科学

02-27

676

(This article was first published on Getting Genetics Done, and kindly contributed to R-bloggers) Anscombe’s quartet comprises four datasets that have nearly identical simple statistical p

高级编程作业 jupyter:Anscombe's quartet

RiddleXyz的博客

06-11

376

作业题目如下：第一题：代码如下： import numpy as np import scipy.stats import pandas import matplotlib.pyplot as plt import seaborn as sns import statsmodels.api as sm def get_var(X): length = len(X) ...

Python - 探索安斯康姆四重奏数据集

与其临渊羡鱼,不如退而结网

09-20

310

这个数据集由四组具有相似统计特征的二维数据组成，旨在展示数据集之间的差异性和统计指标的重要性。通过使用 Python 和 Seaborn，我们能够轻松地加载 Anscombe’s quartet 数据集，并通过可视化工具更好地理解数据集之间的差异。在 Anscombe’s quartet 数据集中，虽然四个数据集的统计指标（如均值、方差等）非常相似，但它们的数据分布和形态却截然不同。这一示例强调了数据可视化的重要性，因为简单的统计摘要可能无法完全揭示数据的特征。现在，我们可以使用 Seaborn 的函数。

anscombe数据集下载

最新发布

06-18

<think>我们正在处理用户关于获取Anscombe数据集的请求。根据引用[1]和[2]，我们知道Anscombe数据集在统计学中很著名，并且可以通过seaborn库在Python中加载。此外，引用[2]提到了线性回归练习中使用该数据集，引用[3]则讨论了数据获取的一般方法。用户的需求很明确：下载或获取Anscombe数据集。根据引用[1]，使用seaborn库的load_dataset函数可以直接加载这个数据集。因此，我们可以指导用户通过Python和seaborn来获取。另外，考虑到用户可能没有安装seaborn，我们需要提供安装方法。同时，如果用户希望以其他格式（如CSV）获取，我们可以提供下载链接或保存数据到本地的代码。步骤：1.安装seaborn（如果尚未安装）。2.使用seaborn加载数据集。3.可选：将数据集保存为CSV文件以供其他用途。此外，我们也可以提供直接从网络下载的途径（如原始数据源），但Anscombe数据集是内置在seaborn中的，所以使用seaborn是最便捷的方式。根据引用[1]的示例代码：```pythonimportseabornassnsanscombe=sns.load_dataset('anscombe')print(anscombe)```因此，回答将围绕这个核心方法展开。同时，为了全面性，我们也可以提到在R语言中获取该数据集的方法（因为引用[3]提到R语言，且Anscombe在R中也是内置数据集），但用户的问题是Python环境，所以作为备选。最后，生成相关问题。</think>要获取 Anscombe 数据集，您可以通过以下几种方法实现： ### 方法一：使用 Python 的 Seaborn 库（推荐）这是最简单的方式，数据集已内置在 Seaborn 中： ```python import seaborn as sns # 加载数据集 anscombe = sns.load_dataset('anscombe') # 查看数据集 print(anscombe.head()) # 保存为CSV文件（可选） anscombe.to_csv('anscombe_dataset.csv', index=False) ``` [^1] ### 方法二：从原始来源下载 Anscombe 数据最初由统计学家 Francis Anscombe 发布： 1. **官方来源**： - 原始论文：[Anscombe, F. J. (1973). Graphs in statistical analysis](https://www.jstor.org/stable/2682899) - 数据可在统计教材配套资源中找到 2. **在线获取**： ```python import pandas as pd url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/anscombe.csv" anscombe = pd.read_csv(url) ``` ### 方法三：在 R 语言中获取 ```r # 内置数据集 data(anscombe) # 查看数据结构 str(anscombe) # 导出为CSV write.csv(anscombe, "anscombe.csv") ``` ### 关键说明 1. 数据集包含 4 组 $x-y$ 数据对（每组 11 个观测值） 2. 四组数据具有相同的统计特征（均值、方差等），但分布形态不同 3. 常用于演示数据分析中可视化的重要性[^2]