数据统计与概率基础
1. 数据离散程度的度量
1.1 数据范围
数据的离散程度指的是数据的分散情况。一个简单的度量是数据范围(range),它是数据集中最大值与最小值的差值。在Python中,由于 range 已有其他含义,我们使用自定义函数来计算:
from typing import List
def data_range(xs: List[float]) -> float:
return max(xs) - min(xs)
当数据集中所有元素相同时,范围为0,此时数据的离散程度最小;范围越大,数据越分散。不过,范围和中位数一样,并不依赖于整个数据集。例如,所有点为0或100的数据集与包含0、100和许多50的数据集范围相同,但前者看起来更分散。
1.2 方差
方差是一种更复杂的离散程度度量。其计算步骤如下:
1. 计算数据集的均值。
2. 每个数据点减去均值,得到偏差。
3. 计算偏差的平方和。
4. 偏差平方和除以 n - 1 ( n 为数据点数量)。
以下是Python实现:
from scratch.linear_algebra import sum_of_squares
def de_mean(xs: List[float]) -> List[float]:
"
数据统计与概率核心概念解析
超级会员免费看
订阅专栏 解锁全文
2932

被折叠的 条评论
为什么被折叠?



