统计与概率:数据理解与性能评估的基础
在处理数据时,我们常常需要对数字集合进行特征描述,统计和概率是帮助我们实现这一目标的重要工具。下面将详细介绍线性相关性、高维空间以及不同类型的概率等关键概念。
线性相关性与数据统计的局限性
当两个变量具有完全正相关或负相关(即相关值为 +1 和 -1)时,我们称这些变量是线性相关的,因为数据点会落在一条直线上。而其他相关值描述的变量则是非线性相关的。线性相关不同值的含义总结如下:
| 相关值 | 相关性类型 |
| ---- | ---- |
| +1 | 正相关 |
| 0 | 无相关 |
| -1 | 负相关 |
不过,统计数据并不能告诉我们关于一组数据的所有信息。以 Anscombe 四重奏为例,这四组不同的二维点集看起来截然不同,但它们具有相同的均值、方差、相关性和直线拟合。具体统计数据如下:
| 数据集 | x 均值 | y 均值 | x 标准差 | y 标准差 | x 和 y 的相关性 | 最佳直线 Y 轴截距 | 最佳直线斜率 |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| 四重奏中的四组数据 | 9.0 | 7.5 | 3.16 | 1.94 | 0.82 | 3 | 0.5 |
如果仅依据这些统计数据,我们会认为这四组数据集是相同的,但实际上它们差异很大。这表明我们不应假设统计数据能完整地描述任何一组数据。在处理新数据集时,花时间去了解它是很有必要的,这包括计算统计数据、绘制图表和进行其他可视化操作。一般来说,我们对数据的理解越深入,就越能设计和训练出
超级会员免费看
订阅专栏 解锁全文
1820

被折叠的 条评论
为什么被折叠?



