数据挖掘基础:描述性数据汇总

本文介绍了数据挖掘中的描述性数据汇总,重点讲解了中心趋势度量,包括分布式度量、代数度量和整体度量。讨论了众数、中列数的概念,提供了中位数近似值的计算公式,并解释了众数在单峰、双峰和多峰数据集中的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

描述性数据汇总

1 中心趋势度量    

分布式度量 可分布式计算,如sum,count

代数度量  可通过分布式计算运算得到,如avg=sum/count,中列数

整体度量  不可分布式计算,必须整体计算,如中位数median,众数mode

        众数:出现频率最高的数。

       中列数:最大值和最小值的平均值。


公式 

适度倾斜的单频率曲线 :mean - mode=3 * (mean-median)


中位数近似值

当观测的数量很大时,中位数的计算开销很大。然而,对于数值属性,我们可以很容易计算中位数的近似值。假定数据根据它们的xi值划分成区间,并且已知每个区间的频率(即数据值的个数)。例如,可以根据年薪将人划分到诸如10000~20000美元、20000~30000美元等区间。令包含中位数频率的区间为中位数区间。我们可以使用如下公式,用插值计算整个数据集的中位数的近似值(例如,薪水的中位数):


 

其中,L1是中位数区间的下界,N是整个数据集中值的个数,46(freq)l是低于中位数区间的所有区间的频率和,freqmedian是中位数区间的频率,而width是中位数区间的宽度。

众数是另一种中心趋势度量。数据集的众数(mode)是集合中出现最频繁的值。因此,可以对定性和定量属性确定众数。可能最高频率对应多个不同值,导致多个众数。具有一个、两个、三个众数的数据集合分别称为单峰的(unimodal)、双峰的(bimodal)和三峰的(trimodal)。一般地,具有两个或更多众数的数据集是多峰的(multimodal)。在另一种极端情况下,如果每个数据值仅出现一次,则它没有众数。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值