知识体系_统计学_02_描述性统计

对数据的描述性统计,包括数值法(包括对数据的集中程度、离中程度和分布形态、相对位置度量)、表格法、图形法

⚠️集中程度反映的是各数据向其中心值靠拢或聚集的程度;离中程度反映的是数据的离散程度,远离中心值的程度;分布形态反映的是分布的偏度和峰度,是相较于标准正态分布的偏度和峰度

⚠️数值法是对数据的概括性度量,由于是对数据的高度概括,所以一些数据细节反而体现不出来

1 数值方法

1.1 单变量

1.1.1 集中程度

1.1.1.1 平均数

简单算术平均数\bar{x}=\frac{x_{1}+x_{2}+x_{3}+...+x_{n}}{n} (容易受离群值,即极小值和极大值的影响)

加权平均数\bar{x_{w}}=\frac{w_{1}*x_{1}+w_{2}*x_{2}+...+w_{n}*x_{n}}{w_{1}+w_{2}+...+w_{n}}w_{1}w_{n}是权重)

截断均值:简单算术平均数的值容易受极端值影响。在很多情况下,我们需要消除极端值对平均数的影响,例如,在比赛中的评分要去掉若干个最高分和最低分,再计算剩余数据的平均值,这样计算得到的就是截尾平均数。\bar{X_{\alpha }}=\frac{X_{(n\alpha +1)}+X_{(n\alpha +2)}+...X_{(n-n\alpha )}}{n-2n\alpha } (其中\alpha表示截尾系数,\alpha =\frac{m}{n},n表示数据个数,m表示去掉的数据个数,X_{(1)}X_{(n)}表示将数据按升序排列后的顺序序列)

几何平均数:\bar{X_{g}}=\sqrt[n]{x_{1}*x_{2}*...*x_{n}},常用于计算平均增长率或利率

调和平均数: \bar{X_{h}}=\frac{n}{\frac{1}{x_{1}}+\frac{1}{x_{2}}+...+\frac{1}{x_{n}}},常用于计算平均速度或电阻

⚠️算术平均数>=几何平均数>=调和平均数

1.1.1.2 中位数

将n个数据按从小到大排列后分为2等份,处于中间分割点的数值为中位数

1.1.1.3 众数

一组数据中出现次数最多的数值,若一组数据每个值出现的次数都一样,则该组数据没有众数,一组数据可以有多个众数

1.1.2 离散程度

1.1.2.1 最小值/最大值/极差

最小值:一组数据中的最小值

最大值:一组数据中的最大值

极差:也称全距,最大值-最小值

1.1.2.2 分位数

将n个数据按从小到大排列后分为k等份,处于分割点的数值就称为分位数

四分位数(k=4)比较常用。四分位数按照数值从小到大的顺序分别称为第一四分位数、第二四分位数和第三四分位数。第二四分位数位于所有数据的中间位置,也叫中位数

四分位距:第三四分位数与第一四分位数的差值,数据越向中位数集中,四分位距就越小

⚠️分位数求解法则:假设一组数据有n个,从小到大排序分为k等分,则对应有k-1个分割点,求第i个切割点的值:(n/k)*i若是整数,则切割点的值为(n/k)*i和 (n/k)*i +1 这两个数据的平均数,若是浮点数,则向上取整 int((n/k)*i);

例如这组数据:48.8 、92.6、111、 175 、209 、212.5、 212.9、218.9、263.5、298、628.3、958、995.9、2325

按分位数求解法则:

根据excel的QUARTILE()函数:

⚠️分位数求解法则与用excel的QUARTILE()函数或PERCENTILE()求出来的结果可能不同,但建议还是按分位数求解法则求相应的分位数

1.1.2.3 与均值的偏差

⚠️\mu为总体均值,\bar{x}为样本均值,n为样本容量,N为总体容量

偏差:数据的值与平均数的差,如果有很多值与平均数的偏差都较大,则该数据集的离散程度较大

E_{i}=x_{i}-\bar{x}

平均偏差:总体\frac{(x_{1}-\mu )+(x_{2}-\mu )+...+(x_{n}-\mu )}{N} (样本:\frac{(x_{1}-\bar{x})+(x_{2}-\bar{x})+...+(x_{n}-\bar{x})}{n-1}

平均绝对偏差:总体\frac{|x_{1}-\mu |+|x_{2}-\mu |+...+|x_{n}-\mu |}{N} (样本:MAE=\frac{|x_{1}-\bar{x}|+|x_{2}-\bar{x}|+...+|x_{n}-\bar{x}|}{n-1}

方差:总体\frac{(x_{1}-\mu )^{2}+(x_{2}-\mu )^{2}+...+(x_{n}-\mu )^{2}}{N}  (样本:\frac{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+...+(x_{n}-\bar{x})^{2}}{n-1}

标准差:方差的算术平方根 (⚠️算术平方根一定是正的,平方根可正可负)

变异系数(CV):用于比较两个数据的离散程度   CV=标准差/平均数

1.1.3 相对位置度量

相对位置用数据与总体均值相差多少个标准差度量

1.1.3.1 z分数

z=\frac{x_{i}-\mu }{\sigma }

1.1.3.2 相对位置的数据占比

切比雪夫定理:与平均数的距离在z个标准差之内的数据项所占比例至少为(1-1/z的平方),其中z是大于1的任意实数(z不一定得是整数),适用于任何数据集而不论其数据分布的形状
当z=2,3和4个标准差时,该定理的一些应用如下:
(1)至少75%的数据值与平均数的距离在z=2个标准差之内。
(2)至少89%的数据值与平均数的距离在z=3个标准差之内。
(3)至少94%的数据值与平均数的距离在z=4个标准差之内。

经验法则:经验法则要求数据为正态分布,具有钟形分布的数据:
(1)大约68%的数据与平均数的距离在1个标准差之内
(2)大约95%的数据与平均数的距离在2个标准差之内
(3)大约99%的数据与平均数的距离在3个标准差之内

⚠️若数据服从正态分布,则可以精准计算出与平均值相差多少个标准差的数据占比,若是其他分布,则只能根据切比雪夫定理,知道至少有多少比例的数据与平均值相差多少个标准差

1.1.3.3 异常值/离群值检测

四分位数间距判断法:

min_x=第一四分位数-1.5*(第三四分位数-第一四分位数)

max_x=第三四分位数-1.5*(第三四分位数-第一四分位数)

若 x<min_x 或 x>max_x,则x为离群值

3倍标准差法:

min_x=平均数-3*标准差

max_x=平均数+3*标准差

若 x<min_x 或 x>max_x,则x为离群值

⚠️关于与平均值相差超过3倍标准差判断为异常值的方法(不要求数据分布为正态分布),统计学家对此还有歧义

1.1.4 分布形态(偏度、峰度)

偏态分布是相对正态分布而言的,偏态分布中均值、中位数、众数的关系

分布形态度量指标 说明
偏度

偏度为0:数据对称分布

偏度大于1或小于-1:高度偏态分布

偏度在0.5~1  或 -1~-0.5:中度偏态分布

偏度在0~0.5 或 -0.5~0:轻度偏态分布

峰度

峰度大于3:尖峰分布,数据的分布更集中

峰度小于3:扁平分布,数据的分布越分散

                                                       表1:某电脑公司近3个月销售量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值