分散性
在描述一组数据时我们需要通过数据的中心位置与分散性来对该组数据的分布情况有个大体的了解,这样才便于我们后续的统计分析。中心位置就是平均数,而分散性的定义就是了解数据是在什么范围?那块区域的数据比较多?那块区域的数据比较少?大部分数据是在平均数的哪一侧,还是说两侧的数量都差不多?一般来说我们都是用分散性是用来描述数据分布分散或集中程度的。如下图所示,我们可以看出红色数据相对于蓝色数据更集中。
描述分散性工具
描述分散性的统计量有全距、四分位距、标准差…
- 全距为最大值减最小值。全距只能描述数据的范围(宽度),不能了解聚散情况,而且受异常值的影响较大。优点是计算简单。
- 四分位距为上四分位距减下四分位距。四分位距仅仅使用了中间50%的数据,因为异常值要么是极大,要么是极小所以这样就能剔除异常值。
- 百分位数:将数据集一分为百。对于划分名次、排行很有用。算是四分位距的拓展。
- 方差为各个数据的数值与均值的距离的平方数的平均值。通常我们不希望根据距离的平方数去考虑分散性。所以我们一般会用标准差。
- 标准差为方差开根号。总体的标准差公式分母为n,样本的标准差公式分母为n-1。这是因为样本的数据量较总体来说会比较少,可能会把异常值排除在外导致方差较小,所以将分母减一,进行修正。
标准分(z分):可对来自不同数据集的数值进行比较,这些数据集的均值与标准差都不一样。通过把数值转化为标准分,我们可以认为这些数值都来自同均值同标准差的数据集。标准分=距离均值的标准差个数。通常我们会认为数值偏离均值三个标准差就是异常值,这就是“三西格玛定理”。
常用图形
对于各种“距”的图形描述我们常用箱线图,如下图所示。