6、数据统计与概率基础解析

数据统计与概率基础解析

1. 线性相关与非线性相关

当两个变量具有完全正相关或负相关(即相关值为 +1 和 -1)时,称这些变量为线性相关,因为此时数据点落在一条直线上。而其他相关值描述的变量则被称为非线性相关。线性相关不同值的含义总结如下:
| 相关值 | 相关性类型 |
| ---- | ---- |
| +1 | 正相关 |
| 0 | 无相关 |
| -1 | 负相关 |

2. 统计数据的局限性

统计数据能为我们提供很多关于数据集的信息,但不能认为统计数据能告诉我们一切。例如 Anscombe 四重奏,由四组不同的二维点组成,这四组数据看起来完全不同,但它们具有相同的均值、方差、相关性和直线拟合。具体数据如下:
| 数据集 | x 均值 | y 均值 | x 标准差 | y 标准差 | x 和 y 相关性 | 最佳直线 Y 轴截距 | 最佳直线斜率 |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| 第一组 | 9.0 | 7.5 | 3.16 | 1.94 | 0.82 | 3 | 0.5 |
| 第二组 | 9.0 | 7.5 | 3.16 | 1.94 | 0.82 | 3 | 0.5 |
| 第三组 | 9.0 | 7.5 | 3.16 | 1.94 | 0.82 | 3 | 0.5 |
| 第四组 | 9.0 | 7.5 | 3.16 | 1.94 | 0.82 | 3 | 0.5 |

这表明不能仅依据统计数据就认为这些数据集是相同的。在处理新数据集时,值得花

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值