数据特征分析技能——统计分析
统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline
集中趋势度量
指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值
取得集中趋势代表值的方法有两种:数值平均数和位置平均数
- 数值平均数
- 算数平均数
- 调和平均数
- 几何平均数
- 位置平均数
- 众数
- 中位数
数值平均数
算数平均数
关注数值,鲁棒性弱(稳定性较弱,易受到异常值影响)
data = pd.DataFrame({
'value':np.random.randint(100,120,100),
'f':np.random.rand(100)})
data['f'] = data['f'] / data['f'].sum() # f为权重,这里将f列设置成总和为1的权重占比
print(data.head())
print('-----------------')
# 算数平均值
mean = data['value'].mean()
print('算数平均数为:%.2f'%mean)
mean_w = (data['value'] * data['f']).sum() / data['f'].sum()
print('加权算数平均值为:%.2f'%mean_w)
# 加权算数平均值 = (x1f1 + x2f2 + ... + xnfn) / (f1 + f2 + ... + fn)
f value
0 0.014970 118
1 0.007184 116
2 0.007459 101
3 0.005892 110
4 0.016599 119
-----------------
算数平均数为:110.09
加权算数平均值为:110.69
几何平均数
计算几何平均数要求各观察值之间存在连乘积关系,它的主要用途是
1. 对比率、指数等进行平均
2. 计算平均发展速度
- 样本数据非负,主要用于对数正态分布
3. 复利下的平均年利率
4. 连续作业的车间求产品的平均合格率
Gn=x1x2x3x4x...