- 章节列表
Chapter1 数据获取
Chapter2 单因子探索分析与可视化
第二章 单因子探索分析与可视化
集中趋势:均值、中位数与分位数、众数
四分位数计算方法
n指的是数据的数量。
- 如果数据集合个数为奇数
若数据集合为L=[1,2,3,4,5,6,7] (假定下标从1开始)
他的下四分位数位置为(7+1)*0.25=2,对应下四分位数为L[2]=2 - 如果数据集合个数为偶数
若数据集合为L=[1,2,3,4,5,6]
计算方式:怎样计算四分位数? (偶数个)
离中趋势
- 标准差、方差
数据分布:偏态与峰度
-
偏态系数与峰态系数
均值相当于中位数偏差很多,表明具有偏态。由于均值偏大,因此S>0,表示存在正偏。
K表示峰态系数,是数据分布集中强度的衡量,值越大,数据分布的峰顶越尖,越小对应的分布越平缓。正态分布的峰态系数一般是3,若有一个分布的峰态系数小于1或大于5,即与正态分布的峰态系数相差大于2那我们基本上可以断定这个分布不是正态分布。所以峰态系数的一个非常大的作用是可以直接用于拒绝正态分布的假设。 -
正态分布与三大分布
卡方分布,t分布,f分布
-
抽样理论
抽样误差与精度
Z 是非标准正态分布标准化后的 x即 Z = x − μ σ Z= \frac{x-\mu}{\sigma} Z=σx−μ