常用数据指标
数据集中趋势
均值
用于表示共性特征,集中趋势。
- 算术平均值(加和平均值):
算术平均=Σmin\frac{\Sigma m_i}{n}nΣmi
m:具体数据
n:数据个数 - 几何平均值(几何平均值):一般在计算增长率等比率时使用,只有在数据为正数时才能计算
几何平均=Mn\sqrt[n]{M}nM = M1nM^\frac{1} {n}Mn1
M:数据乘积
n:数据个数 - 调和平均:一般用于计算速度的平均,或者当下限值(最低值)附近的数据出现的频数较高时。只有在数据为正数时才能计算。
(对相同数据进行计算结果时,算术平均、几何平均、调和平均依次由大到小地变化或相等)
调和平均=n(1m1+…+1mn)\frac{n}{(\frac{1}{m_1}+…+\frac{1}{m_n})}(m11+…+mn1)n
n:数据个数
m:具体数据 - 调整平均:从上限值和下限值中去掉一定比例的数据后剩下的数据的算术平均值。一般用在数据的上限和下限相差较大的场景。
中位数
把数据由小到大排列后居于中间的值。
当一组序列数据之间的差异较大时,导致平均值代表性差,可以通过中位数来表示数据的集中趋势。
中值在年收入、储蓄额等金额性的集中趋势的度量中常被使用。比如年收入和储蓄额多的人只是少数,但是由于金额很大,平均值也会被拉高,这时候可以使用中值。
众数
在频数分布中集中了最多人的频数值,通用通过频数分布来表示,比如新建公寓开始出售时销售最多的价格
平均值、中位数通常用在连续变量中,众数可用在连续变量和分类变量
数据离散趋势
数据的离散趋势代表了数据中包含的信息量
极差
指分布的最大值和最小值的距离。
在决定频数分布的组距时,也可以使用。
方差、标准差
表示各个数据相对于平均值的离散程度的指标。
方差:数据的平均值与各个数据的差(称之为偏差)的平方的平均值
- 总体方差:
σ2=Σ(xn−μ)2n\sigma^2=\frac{\Sigma(x_n-\mu)^2}{n}σ2=nΣ(xn−μ)2 - 样本方差:
S2=Σ(xn−xˉ)2n−1S^2=\frac{\Sigma(x_n-\bar{x})^2}{n-1}S2=n−1Σ(xn−xˉ)2
标准差:方差的平方根
- 总体标准差:
σ=Σ(xn−μ)2n\sigma=\sqrt\frac{\Sigma(x_n-\mu)^2}{n}σ=nΣ(xn−μ)2 - 样本标准差:
S=Σ(xn−xˉ)2n−1S=\sqrt\frac{\Sigma(x_n-\bar{x})^2}{n-1}S=n−1Σ(xn−xˉ)2
现实情况中,我们不知道μ\muμ的值,所以更多的是用样本标准差
离散系数
如果希望比较两组数据的离散程度,不能直接比较两组数据的标准差,因为两组数据的数量和均值不同,通常选用离散系数来比较。
离散系数=标准差/均值
Vs=σxˉV_s=\frac{\sigma}{\bar{x}}Vs=xˉσ