数据特征分析技能—— 统计分析

本文介绍了数据统计分析中的集中趋势度量和离中趋势度量。集中趋势度量包括数值平均数(算数平均数、几何平均数和位置平均数)和位置平均数(众数和中位数)。离中趋势度量涉及极差、分位差、方差和标准差。集中趋势度量关注数据的中心值,而离中趋势度量则衡量数据偏离中心的程度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据特征分析技能——统计分析

统计指标对定量数据进行统计描述,常从集中趋势离中趋势两个方面进行分析

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline

集中趋势度量

指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值

取得集中趋势代表值的方法有两种:数值平均数位置平均数
- 数值平均数
- 算数平均数
- 调和平均数
- 几何平均数
- 位置平均数
- 众数
- 中位数

数值平均数

算数平均数

关注数值,鲁棒性弱(稳定性较弱,易受到异常值影响)

data = pd.DataFrame({
  
  'value':np.random.randint(100,120,100),
                    'f':np.random.rand(100)})
data['f'] = data['f'] / data['f'].sum()  # f为权重,这里将f列设置成总和为1的权重占比
print(data.head())
print('-----------------')

# 算数平均值
mean = data['value'].mean()
print('算数平均数为:%.2f'%mean)

mean_w = (data['value'] * data['f']).sum() / data['f'].sum()
print('加权算数平均值为:%.2f'%mean_w)
# 加权算数平均值 = (x1f1 + x2f2 + ... + xnfn) / (f1 + f2 + ... + fn)
          f  value
0  0.014970    118
1  0.007184    116
2  0.007459    101
3  0.005892    110
4  0.016599    119
-----------------
算数平均数为:110.09
加权算数平均值为:110.69
几何平均数

计算几何平均数要求各观察值之间存在连乘积关系,它的主要用途是
1. 对比率、指数等进行平均
2. 计算平均发展速度
- 样本数据非负,主要用于对数正态分布
3. 复利下的平均年利率
4. 连续作业的车间求产品的平均合格率

Gn=x1x2x3x4x...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值