数据统计与概率基础解析
1. 线性相关与非线性相关
当两个变量具有完全正相关或负相关(即相关值为 +1 和 -1)时,称这些变量为线性相关,因为此时数据点落在一条直线上。而其他相关值描述的变量则被称为非线性相关。线性相关不同值的含义总结如下:
| 相关值 | 相关性类型 |
| ---- | ---- |
| +1 | 正相关 |
| 0 | 无相关 |
| -1 | 负相关 |
2. 统计数据的局限性
统计数据能为我们提供很多关于数据集的信息,但不能认为统计数据能告诉我们一切。例如 Anscombe 四重奏,由四组不同的二维点组成,这四组数据看起来完全不同,但它们具有相同的均值、方差、相关性和直线拟合。具体数据如下:
| 数据集 | x 均值 | y 均值 | x 标准差 | y 标准差 | x 和 y 相关性 | 最佳直线 Y 轴截距 | 最佳直线斜率 |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| 第一组 | 9.0 | 7.5 | 3.16 | 1.94 | 0.82 | 3 | 0.5 |
| 第二组 | 9.0 | 7.5 | 3.16 | 1.94 | 0.82 | 3 | 0.5 |
| 第三组 | 9.0 | 7.5 | 3.16 | 1.94 | 0.82 | 3 | 0.5 |
| 第四组 | 9.0 | 7.5 | 3.16 | 1.94 | 0.82 | 3 | 0.5 |
这表明不能仅依据统计数据就认为这些数据集是相同的。在处理新数据集时,值得花
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



