CDA Level 1 数据分析师:4.2 数据的描述性统计
1. 描述统计
五个角度描述数据:
1. 总量指标:一年的营业额、利润
2. 相对指标:是两个有相互关系指标的比值(老龄化占比,营业额的完成情况,合格率)
3. 集中趋势:
1. 定义:一组数据向中心靠拢的趋势
2. 众数:出现的次数最多的变量值M0; 众数不唯一
3. 分位数:
1. 中位数:先排序,找中间位置的数
2. 四分位数:上分位数1/4; 下分位数3/4
3. 均值:
1. 算数平均数:简单算数平均数,加权算数平均数
加权算数平均数:用于分组的平均值,组中值*权重 再求和。权重:是一个概率:频数/总数
2. 几何平均数(用于增长率):
例:一只股票两年收益率分别为4.5%, 1.9% 计算投资者四年的平均收益率?
几何平均:G = sqrt(104.5% + 101.9%) - 1
3. 调和平均数(用于加速度计算):
1. 变量倒数的算数平均数的倒数
4. 均值不等式
对于同一组数据:算数平均数 ≥ 几何平均数 ≥ 调和平均数
当所有样本值相等时,等号成立
4. 离散程度:
1. 极差: 一组数据最大值-最小值
2. 平均差:各变量值与其均值离差的绝对值的平均数
1. 每个样本值到均值的平均距离
2. ΣABS(Xi-Xbar)
3. 总体方差和标准差 σ
4. 样本方差和标准差 S(注意计算样本方差时,分母是n-1)
5. 离散系数