单变量统计分析:从经验分布到理论分布
1. 集中趋势的度量
在数据分析中,集中趋势的度量能帮助我们了解数据的中心位置。常见的集中趋势度量包括算术平均数、几何平均数和调和平均数。
- 算术平均数 :是最常用的集中趋势度量,但它对异常值非常敏感。
- 几何平均数 :对于偏态或对数正态分布的数据很有用,不过不能用于包含负值的数据集。例如,某些数据的平均增长率计算中,几何平均数能给出更准确的结果,像一组值的平均增长为 1.3006,意味着人口大约每年增长 30%,而算术平均数会得出 1.3167(约 32% 的年增长率)这样的错误值。
- 调和平均数 :也用于不对称或对数正态分布的数据,在数值与特定单位相关时是更好的平均值,常用于平均速度的计算以及样本大小均值的计算,但它和几何平均数都对异常值不稳健。
2. 离散程度的度量
分布的另一个重要特性是离散程度,以下是几种常用的离散程度度量参数:
- 极差 :是数据集中最高值和最低值的差值,计算简单,但由于只由两个极端数据点定义,非常容易受到异常值的影响,因此在大多数情况下不是可靠的离散程度度量。
- 四分位距 :使用数据的中间 50%,试图克服极差对异常值敏感的问题。
- 标准差 :是每个数据点与均值的平均偏差,经验分布的标准差常被用作总体标准差 σ 的估计值。样本标准差 s 的计算使用 N - 1 作为分母,因为它使用样本均值而非未知的总体均值,样本均值
超级会员免费看
订阅专栏 解锁全文
6万+

被折叠的 条评论
为什么被折叠?



