数据统计与概率基础:从离散度到因果关系的深入剖析
1. 数据离散度的衡量
在数据分析中,了解数据的离散程度至关重要。离散度指的是数据的分散程度,通常用一些统计指标来衡量,这些指标值接近零表示数据几乎没有分散,而较大的值则表示数据分散程度较大。
1.1 极差(Range)
极差是一种简单的离散度衡量指标,它是数据集中最大值与最小值的差值。在 Python 中,由于 range 已有特定含义,我们使用自定义函数来计算极差:
from typing import List
def data_range(xs: List[float]) -> float:
return max(xs) - min(xs)
当最大值和最小值相等时,极差为零,这意味着数据集中的所有元素都相同,数据的分散程度最小。反之,极差越大,数据的分散程度越大。然而,极差和中位数一样,并不依赖于整个数据集。例如,一个所有点都是 0 或 100 的数据集,与一个包含 0、100 和许多 50 的数据集,它们的极差是相同的,但显然前者的数据分散程度应该更大。
1.2 方差(Variance)
方差是一种更复杂的离散度衡量指标,它衡量的是数据点与均值的平均平方偏差。计算方差的步骤如下:
1. 计算数据集的均值。
2. 计算每个数据点与均值的偏差。
3. 对每个偏差进行平方。
4. 计算这些平方偏差的平均值。
在 Python 中,我们可以使用以下代码计算方差
超级会员免费看
订阅专栏 解锁全文
1298

被折叠的 条评论
为什么被折叠?



