统计框架知识详解
1. 描述性统计
描述性统计主要用于概括和描述数据集的基本特征,它能让我们对数据有一个初步的直观认识,主要包括集中趋势和离散程度的度量。
1.1 集中趋势
集中趋势指的是概率分布的中心值或典型值,也可称为概率分布的中心或位置,通俗来讲,就是对平均值的度量。主要包括均值、中位数和众数。
- 均值 :也称为算术平均值,是数据集中所有数据项的总和除以数据项的数量。设有限数据集为 (x_1, x_2, \cdots, x_n),其均值 (\bar{x} n) 的计算公式为:
[
\bar{x}_n = \frac{1}{n} \sum {i=1}^{n} x_i
]
- 中位数 :
- 对于有限有序数据集 (x_1, x_2, \cdots, x_n),中位数 (m) 的计算公式为:
[
m = \frac{1}{2} (x_{\lfloor (n + 1) / 2 \rfloor} + x_{\lceil (n + 1) / 2 \rceil})
]
其中 (\lfloor \cdot \rfloor) 和 (\lceil \cdot \rceil) 分别表示向下取整和向上取整函数。如果数据项的数量为奇数,中位数就是中间的数据项;如果为偶数,中位数是中间两个相邻数的和除以 2。
- 对于任何概率分布,都能找到一个实数 (m) 作为中位数。若概率分布是离散的,满足 (P(X \leq m) \geq \frac{1}{2}) 且 (P(X \geq m) \ge
超级会员免费看
订阅专栏 解锁全文
2956

被折叠的 条评论
为什么被折叠?



