大数据之统计学基础(一) -- 描述统计

本文介绍了描述统计中的核心概念,包括平均数、分位数、中位数、众数等描述数据水平的统计量,以及极差、四分位差、方差、标准差等描述数据差异的统计量,并探讨了数据分布形状的统计量如偏度系数和峰度系数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

描述统计

1.描述数据水平的统计量
  1. 平均数(平均数反映了一组数的平均水平,平均数会受到极端值的影响),在计算时一般使用算术平均数:

算术平均数  xˉ=∑i=1nxin算术平均数 \ \ \bar{x} = {\displaystyle\sum_{i=1}^nx_i \over n}  xˉ=ni=1nxi

  1. 分位数:四分位数、中位数(中位数反映一组数据的中等水平,只与数据的位置有关,不受极端值影响)、百分位数

中位数:Me={x(n+1)2,n为奇数12(xn2+xn2+1),n为偶数‘ 中位数: M_e=\begin{cases} x_{(n+1) \over 2}, & n为奇数 \\ {1 \over 2}(x_{n \over 2}+x_{{n \over 2}+1}), & n为偶数 \end{cases} `Me={x2(n+1),21(x2n+x2n+1),nn

四分位数        Q25%=n+14;   Q75%=3(n+1)4 四分位数 \ \ \ \ \ \ \ \ Q_{25\%} = {n+1 \over 4} ;\ \ \ Q_{75\%}={3(n+1) \over 4}         Q25%=4n+1;   Q75%=43(n+1)

  1. 众数(一组数据中出现频次最多的数)
2.描述数据差异的统计量
  1. 极差:一组数据的最大值与最小值之差(受极端值影响)。

R=Max(x)−Min(x) R = Max(x) - Min(x) R=Max(x)Min(x)

  1. 四分位差(反映中间50%数据的离散程度,不受极端值影响)。

IQR=Q75%−Q25% IQR = Q_{75\% }-Q_{25\%} IQR=Q75%Q25%

  1. 方差和标准差:标准差反映数据离散程度的绝对值,其数值受原始数据大小的影响;另外,标准差与原始数据的计量单位相同,因此,在比较不同样本数据的离散程度时,使用变异系数是更好的选择。

样本方差  s2=∑i=1n(xi−xˉ)2n−1 样本方差 \ \ s^2 = {\displaystyle\sum_{i=1}^n (x_i- \bar{x})^2 \over n-1} \\   s2=n1i=1n(xixˉ)2

  1. 变异系数(CV):变异系数又称离散系数,变异系数消除了计算数值和计量单位的影响,因此可以反映一组数据的相对离散程度(变异系数是相对值),主要用于比较不同样本数据的离散程度。

离散系数  CV=sxˉ 离散系数 \ \ CV = {s \over \bar{x}}   CV=xˉs

  1. 标准分数:标准化值,度量每个数值在该组数据中的相对位置

标准分数  zi=xi−xˉs 标准分数 \ \ z_i = {x_i -\bar{x} \over s}   zi=sxixˉ

3.描述数据分布形状的统计量
  1. 偏度系数:偏度系数用于描述数据分布的对称性,偏度系数越接近0,则数据的分布月对称,偏度系数为正,则数据分布为右偏,为负,则数据分布为左偏

  2. 峰度系数:描述数据分布峰值的高低。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值