对数据的描述性统计,包括数值法(包括对数据的集中程度、离中程度和分布形态、相对位置度量)、表格法、图形法
⚠️集中程度反映的是各数据向其中心值靠拢或聚集的程度;离中程度反映的是数据的离散程度,远离中心值的程度;分布形态反映的是分布的偏度和峰度,是相较于标准正态分布的偏度和峰度
⚠️数值法是对数据的概括性度量,由于是对数据的高度概括,所以一些数据细节反而体现不出来
1 数值方法
1.1 单变量
1.1.1 集中程度
1.1.1.1 平均数
简单算术平均数 (容易受离群值,即极小值和极大值的影响)
加权平均数 (
至
是权重)
截断均值:简单算术平均数的值容易受极端值影响。在很多情况下,我们需要消除极端值对平均数的影响,例如,在比赛中的评分要去掉若干个最高分和最低分,再计算剩余数据的平均值,这样计算得到的就是截尾平均数。 (其中
表示截尾系数,
,n表示数据个数,m表示去掉的数据个数,
至
表示将数据按升序排列后的顺序序列)
几何平均数:,常用于计算平均增长率或利率
调和平均数: ,常用于计算平均速度或电阻
⚠️算术平均数>=几何平均数>=调和平均数
1.1.1.2 中位数
将n个数据按从小到大排列后分为2等份,处于中间分割点的数值为中位数
1.1.1.3 众数
一组数据中出现次数最多的数值,若一组数据每个值出现的次数都一样,则该组数据没有众数,一组数据可以有多个众数
1.1.2 离散程度
1.1.2.1 最小值/最大值/极差
最小值:一组数据中的最小值
最大值:一组数据中的最大值
极差:也称全距,最大值-最小值
1.1.2.2 分位数
将n个数据按从小到大排列后分为k等份,处于分割点的数值就称为分位数
四分位数(k=4)比较常用。四分位数按照数值从小到大的顺序分别称为第一四分位数、第二四分位数和第三四分位数。第二四分位数位于所有数据的中间位置,也叫中位数
四分位距:第三四分位数与第一四分位数的差值,数据越向中位数集中,四分位距就越小
⚠️分位数求解法则:假设一组数据有n个,从小到大排序分为k等分,则对应有k-1个分割点,求第i个切割点的值:(n/k)*i若是整数,则切割点的值为(n/k)*i和 (n/k)*i +1 这两个数据的平均数,若是浮点数,则向上取整 int((n/k)*i);
例如这组数据:48.8 、92.6、111、 175 、209 、212.5、 212.9、218.9、263.5、298、628.3、958、995.9、2325
按分位数求解法则:
根据excel的QUARTILE()函数:
⚠️分位数求解法则与用excel的QUARTILE()函数或PERCENTILE()求出来的结果可能不同,但建议还是按分位数求解法则求相应的分位数
1.1.2.3 与均值的偏差
⚠️为总体均值,
为样本均值,n为样本容量,N为总体容量
偏差:数据的值与平均数的差,如果有很多值与平均数的偏差都较大,则该数据集的离散程度较大
平均偏差:总体 (样本:
)
平均绝对偏差:总体 (样本:
)
方差:总体 (样本:
)
标准差:方差的算术平方根 (⚠️算术平方根一定是正的,平方根可正可负)
变异系数(CV):用于比较两个数据的离散程度 CV=标准差/平均数
1.1.3 相对位置度量
相对位置用数据与总体均值相差多少个标准差度量
1.1.3.1 z分数
1.1.3.2 相对位置的数据占比
切比雪夫定理:与平均数的距离在z个标准差之内的数据项所占比例至少为(1-1/z的平方),其中z是大于1的任意实数(z不一定得是整数),适用于任何数据集而不论其数据分布的形状。
当z=2,3和4个标准差时,该定理的一些应用如下:
(1)至少75%的数据值与平均数的距离在z=2个标准差之内。
(2)至少89%的数据值与平均数的距离在z=3个标准差之内。
(3)至少94%的数据值与平均数的距离在z=4个标准差之内。
经验法则:经验法则要求数据为正态分布,具有钟形分布的数据:
(1)大约68%的数据与平均数的距离在1个标准差之内
(2)大约95%的数据与平均数的距离在2个标准差之内
(3)大约99%的数据与平均数的距离在3个标准差之内
⚠️若数据服从正态分布,则可以精准计算出与平均值相差多少个标准差的数据占比,若是其他分布,则只能根据切比雪夫定理,知道至少有多少比例的数据与平均值相差多少个标准差
1.1.3.3 异常值/离群值检测
四分位数间距判断法:
min_x=第一四分位数-1.5*(第三四分位数-第一四分位数)
max_x=第三四分位数-1.5*(第三四分位数-第一四分位数)
若 x<min_x 或 x>max_x,则x为离群值
3倍标准差法:
min_x=平均数-3*标准差
max_x=平均数+3*标准差
若 x<min_x 或 x>max_x,则x为离群值
⚠️关于与平均值相差超过3倍标准差判断为异常值的方法(不要求数据分布为正态分布),统计学家对此还有歧义
1.1.4 分布形态(偏度、峰度)
偏态分布是相对正态分布而言的,偏态分布中均值、中位数、众数的关系
分布形态度量指标 | 说明 |
偏度 | 偏度为0:数据对称分布 偏度大于1或小于-1:高度偏态分布 偏度在0.5~1 或 -1~-0.5:中度偏态分布 偏度在0~0.5 或 -0.5~0:轻度偏态分布 |
峰度 | 峰度大于3:尖峰分布,数据的分布更集中 峰度小于3:扁平分布,数据的分布越分散 |
表1:某电脑公司近3个月销售量