一、描述性统计分析
1.1 数据的计量尺度
名称 | 特征 | 数据类型 |
---|---|---|
定类尺度 | 只能用来比较相等或不相等 | 定性数据 |
定序尺度 | 可比较是否相等以及大小 关系 | 定性数据 |
定距尺度 | 可比较是否相等、大小关系以及进行加减运算 | 定量数据 |
定比尺度 | 可比较是否相等、大小关系以及进行加减、乘除运算 | 定量数据 |
1.2 数据的度量指标
1.2.1 数据集中趋势的度量指标
常见的是平均数、中位数、众数等
指标名称 | 定义 | 适用的数据类型 | 备注 |
---|---|---|---|
平均数 | 所有数之和除以其个数 | 定量数据 | 可以较好的反应数据的集中趋势 ,但易受极端值的影响 |
中位数 | 处于数列中点位置的数值 | 顺序数据、定量数据 | 主要用于测试顺序数据的集中趋势,不受极端值的影响 |
众数 | 一组数据中出现次数最多的数值 | 分类数据、顺序数据、定量数据 | 一般在数据量较大时,才有意义 |
1.2.2 数据离中趋势的度量指标
常见的是极差、分位矩、平均差、方差、标准差、离散系数等
1、极差
- 未分组数据:极差 = 最大值 - 最小值
- 已分组数据:极差 = 最大组的上限 - 最小组的下限
- 用于粗略检查产品质量的稳定性
2、分位矩
- 四分位距 = 第三个四分位数 - 第一个四分位数
- 反应了数列中间数据的差距
3、平均差
公式: M . D = ∑ ∣ x − x ‾ ∣ n M.D=\frac{\sum|x-\overline x|}{n} M.D=n∑∣x−x∣
- 对于数据的离中趋势有较充分的代表性
4、方差和标准差
方差用符号 s 2 s^2 s2表示,方差的平方根就是标准差,其公式为: s = ∑ i = 1 n ( x − x ‾ ) 2 n s=\sqrt\frac{\sum_{i=1}^n(x-\overline x)^2}{n} s=n∑i=1n(x−x)2其中 x ‾ \overline x x为该组数据的平均值。标准差度量了偏离平均值的大小。
5、离散系数
公式为: V s = s x × 100 % V_s=\frac{s}{x}\times100\% Vs=xs×100%
1.2.3 数据分布的测定
数据分布形态的测定主要以正态分布为标准进行衡量,其中测定的指标有偏态和峰度。如果样本的偏度系数接近于0,峰度系数接近于3,则可推断总体分布是接近于正态分布的。
1.3.1 数据偏态
数据分布的不对称性称作偏态。
名称 | 特征 | ||
---|---|---|---|
众数 | 平均数 | 右向偏态,又称正向偏态 | 数据的极端值在右边,平均数与众数之差为正值 |
平均数 | 众数 | 左向偏态,又称负向偏态 | 数据的极端值在左边,平均数与众数之差为负值 |
偏态系数公式为: S K = n ( n − 1 ) ( n − 2 ) Σ ( x i − x ‾ s ) 3 SK={\frac{n}{(n-1)(n-2)}}\Sigma(\frac{x_i-\overline x}{s})^3 SK=(n−1)(n−2)nΣ(sxi−x)3
其中 x ‾ \overline x x代表数据的平均值, x i x_i xi代表每个数值, s s s代表数据的标准差, n n n代表数据的个数。
- S K = 0 SK=0 SK=0,分布是对称的;
- S K > 0 SK>0 SK>0,分布是正偏,即右向偏态;
- S K < 0 SK<0 SK<0,分布是负偏,即左向偏态。
1.3.2 数据峰度
峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。当分布曲线比正态分布曲线顶峰更为尖峭,则称为尖顶峰度;当分布曲线比正态分布曲线顶峰更为平缓,则称为平顶峰度。
峰度系数公式为: K = n ( n + 1 ) ( n − 1 ) ( n − 2 ) ( n − 3 ) Σ ( x i − x ‾ s ) 4 − 3 ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) K=\frac{n(n+1)}{(n-1)(n-2)(n-3)}\Sigma(\frac{x_i-\overline x}{s})^4-\frac{3(n-1)^2}{(n-2)(n-3)} K=(n−1)(n−2)(n−3)n(n+1)Σ(sxi−x)4−(n−2)(n−3)3(n−1)2
1.3 数据的展示——统计图
常用的统计图有直方图、条形图、扇形图、折线图、箱线图、茎叶图等
图形名称 | 数据类型 | 图形作用 | 备注 |
---|---|---|---|
直方图 | 定量数据 | 得到数据的大致情况 | |
条形图 | 分类数据 | 比较数据之间的差别 | |
扇形图 | 分类数据 | 表示各部分数量于总数的关系 | |
折线图 | 时间序列数据 | 表示统计数据的增减变化 | |
箱线图 | 定量数据 | 显示数据分散的情况 | 上四分位数 Q 3 Q3 Q3,下四分位数 Q 1 Q1 Q1 |
茎叶图 | 定量数据 | 直观反应数据的集中趋势 |
- 箱线图包含六个数据节点:上边缘、上四分位数、中位数、下四分位数、下边缘、异常值。
- 上 边 缘 = 上边缘= 上边缘=Q3 + 1.5 ( +1.5( +1.5(Q3-Q1 ) ) ), 下 边 缘 = 下边缘= 下边缘=Q1 − 1.5 ( -1.5( −1.5(Q3-Q1 ) ) )
- 极端异常值,即超出四分位数差三倍距离的数据,用“ ∗ * ∗”表示
- 温和异常值,即处于四分位数差三倍距离的之内的数据,用“黑点”表示
二、数理统计基础
2.1 正态分布
2.1.1 分布特征
- 对称性。以 x = μ x=\mu x=μ为对称轴。
- 非负性。即密度函数 f ( x ) f(x) f(x)都处于 x x x轴上方。
- 服从正态分布的随机变量分布由 μ 、 σ