数据分析的统计基础(上)

这篇博客介绍了数据分析的统计基础,包括描述性统计分析如数据的计量尺度、度量指标和分布测定,以及数理统计的基础如正态分布、三大分布、中心极限定理和抽样估计的概念、方法和误差分析。重点讲解了数据的集中趋势和离中趋势的度量,以及抽样误差的影响因素。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、描述性统计分析

1.1 数据的计量尺度

名称 特征 数据类型
定类尺度 只能用来比较相等或不相等 定性数据
定序尺度 可比较是否相等以及大小 关系 定性数据
定距尺度 可比较是否相等、大小关系以及进行加减运算 定量数据
定比尺度 可比较是否相等、大小关系以及进行加减、乘除运算 定量数据

1.2 数据的度量指标

1.2.1 数据集中趋势的度量指标

常见的是平均数、中位数、众数等

指标名称 定义 适用的数据类型 备注
平均数 所有数之和除以其个数 定量数据 可以较好的反应数据的集中趋势 ,但易受极端值的影响
中位数 处于数列中点位置的数值 顺序数据、定量数据 主要用于测试顺序数据的集中趋势,不受极端值的影响
众数 一组数据中出现次数最多的数值 分类数据、顺序数据、定量数据 一般在数据量较大时,才有意义

1.2.2 数据离中趋势的度量指标

常见的是极差、分位矩、平均差、方差、标准差、离散系数等

1、极差
  • 未分组数据:极差 = 最大值 - 最小值
  • 已分组数据:极差 = 最大组的上限 - 最小组的下限
    • 用于粗略检查产品质量的稳定性
2、分位矩
  • 四分位距 = 第三个四分位数 - 第一个四分位数
    • 反应了数列中间数据的差距
3、平均差

公式: M . D = ∑ ∣ x − x ‾ ∣ n M.D=\frac{\sum|x-\overline x|}{n} M.D=nxx

  • 对于数据的离中趋势有较充分的代表性
4、方差和标准差

方差用符号 s 2 s^2 s2表示,方差的平方根就是标准差,其公式为: s = ∑ i = 1 n ( x − x ‾ ) 2 n s=\sqrt\frac{\sum_{i=1}^n(x-\overline x)^2}{n} s=ni=1n(xx)2 其中 x ‾ \overline x x为该组数据的平均值。标准差度量了偏离平均值的大小。

5、离散系数

公式为: V s = s x × 100 % V_s=\frac{s}{x}\times100\% Vs=xs×100%

1.2.3 数据分布的测定

数据分布形态的测定主要以正态分布为标准进行衡量,其中测定的指标有偏态和峰度。如果样本的偏度系数接近于0峰度系数接近于3,则可推断总体分布是接近于正态分布的。

1.3.1 数据偏态

数据分布的不对称性称作偏态。

名称 特征
众数 平均数 右向偏态,又称正向偏态 数据的极端值在右边,平均数与众数之差为正值
平均数 众数 左向偏态,又称负向偏态 数据的极端值在左边,平均数与众数之差为负值

偏态系数公式为: S K = n ( n − 1 ) ( n − 2 ) Σ ( x i − x ‾ s ) 3 SK={\frac{n}{(n-1)(n-2)}}\Sigma(\frac{x_i-\overline x}{s})^3 SK=(n1)(n2)nΣ(sxix)3
其中 x ‾ \overline x x代表数据的平均值, x i x_i xi代表每个数值, s s s代表数据的标准差, n n n代表数据的个数。

  • S K = 0 SK=0 SK=0,分布是对称的;
  • S K > 0 SK>0 SK>0,分布是正偏,即右向偏态;
  • S K < 0 SK<0 SK<0,分布是负偏,即左向偏态。
1.3.2 数据峰度

峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。当分布曲线比正态分布曲线顶峰更为尖峭,则称为尖顶峰度;当分布曲线比正态分布曲线顶峰更为平缓,则称为平顶峰度。
峰度系数公式为: K = n ( n + 1 ) ( n − 1 ) ( n − 2 ) ( n − 3 ) Σ ( x i − x ‾ s ) 4 − 3 ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) K=\frac{n(n+1)}{(n-1)(n-2)(n-3)}\Sigma(\frac{x_i-\overline x}{s})^4-\frac{3(n-1)^2}{(n-2)(n-3)} K=(n1)(n2)(n3)n(n+1)Σ(sxix)4(n2)(n3)3(n1)2

1.3 数据的展示——统计图

常用的统计图有直方图、条形图、扇形图、折线图、箱线图、茎叶图等

图形名称 数据类型 图形作用 备注
直方图 定量数据 得到数据的大致情况
条形图 分类数据 比较数据之间的差别
扇形图 分类数据 表示各部分数量于总数的关系
折线图 时间序列数据 表示统计数据的增减变化
箱线图 定量数据 显示数据分散的情况 上四分位数 Q 3 Q3 Q3,下四分位数 Q 1 Q1 Q1
茎叶图 定量数据 直观反应数据的集中趋势
  • 箱线图包含六个数据节点:上边缘、上四分位数、中位数、下四分位数、下边缘、异常值。
    • 上 边 缘 = 上边缘= =Q3 + 1.5 ( +1.5( +1.5(Q3-Q1 ) ) ) 下 边 缘 = 下边缘= =Q1 − 1.5 ( -1.5( 1.5(Q3-Q1 ) ) )
    • 极端异常值,即超出四分位数差三倍距离的数据,用“ ∗ * ”表示
    • 温和异常值,即处于四分位数差三倍距离的之内的数据,用“黑点”表示

二、数理统计基础

2.1 正态分布

2.1.1 分布特征
  • 对称性。以 x = μ x=\mu x=μ为对称轴。
  • 非负性。即密度函数 f ( x ) f(x) f(x)都处于 x x x轴上方。
  • 服从正态分布的随机变量分布由 μ 、 σ
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值