数据挖掘学习笔记:数据描述性统计

本文深入讲解统计学中的核心概念,包括集中趋势的度量如均值、中位数和众数,以及离散趋势的度量如极差、方差和标准差。同时介绍了基本的统计图表,如条形图、直方图和盒图,帮助读者理解数据的分布和变异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

集中趋势

均值:

中位数:

众数: 

离散趋势--变异程度的度量

极差(全距):

分位数:

四分位极差:

五数概括(five-number summary)

盒图(箱线图)

方差

标准差

变异系数

基本统计图


 

集中趋势

均值:

\overline{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}

加权算术均值:\overline{x}=\frac{\sum_{i=1}^{n}\omega_{i}x{i}}{\sum_{i=1}^{n}\omega_{i}}

截断均值:去掉高低截断值(不要去掉过多,会去掉一些有用的信息)

中位数:

奇数则为有序集的中间值, 否则为中间两个数的平均 

众数: 

出现频率最高的值(不唯一/每个值出现一次则没有) ;1/2/3个众数-〉单峰的, 双峰的, 三峰的 

中列数:

指样本中极大值与极小值的平均。有时作为对称分布的均值的粗略估计

离散趋势--变异程度的度量

极差(全距):

最大值与最小值之差,Range(x)=Max(x)-Min(x)

分位数:

将一个随机变量的概率分布范围分为几个等份的数值点

中位数:特殊的分位数

四分位数:25% 50% 75%

第P个百分位数:至少有P%的数据项小于或等于这个值,且至少有(100-P)%的数据项大于或等于这个值

计算方法:

  • 按递增排序
  • 计算位置的指数 i=(p/100)*n
  • 如果 i 不是整数,将其向上取整
  • 如果 i 是整数,则p分位数为第 i 项与第 i+1 项的数据的平均值

四分位极差:

又称四分位点内距,第1个和第3个四分位数之间的距离(半个全距):IQR=Q3-Q1

特点:该距离是散布的一种简单度量,能够克服极端值的影响

五数概括(five-number summary)

包含中位数(Q2)、四分位数Q1和Q3、最小和最大观测值:Min-->Q1-->Median(Q2)-->Q3-->Max

特点:最能反映数据重要特征的5个数

盒图(箱线图)

体现五数概括

特征:

  • 在盒图中,第一个四分位数和第三个四分位数确定了盒子的底部和顶部
  • 盒子中间的粗线就说中位数所在的位置
  • 由盒子向上向下伸出的垂直部分称为触须,表示数据的散布范围,通常最远点是1.5IQR(IQR=Q3-Q1)
  • 离群点(脏数据),为了不因这些少数的离群数据导致整体特征的偏移,将这些离群点单独汇出

方差

样本:s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\overline{x})^{2}

总体:\sigma^{2}=\frac{1}{N}\sum_{i=1}^{n}(x_{i}-\mu )^{2}

标准差

方差s^{2}\sigma ^{2}的平方根s\sigma

变异系数

标准差与均值的比值*100

基本统计图

条形图、直方图

散点图

盒图

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值