描述性数据汇总
1 中心趋势度量
分布式度量 可分布式计算,如sum,count
代数度量 可通过分布式计算运算得到,如avg=sum/count,中列数
整体度量 不可分布式计算,必须整体计算,如中位数median,众数mode
众数:出现频率最高的数。
中列数:最大值和最小值的平均值。
公式
适度倾斜的单频率曲线 :mean - mode=3 * (mean-median)
中位数近似值
当观测的数量很大时,中位数的计算开销很大。然而,对于数值属性,我们可以很容易计算中位数的近似值。假定数据根据它们的xi值划分成区间,并且已知每个区间的频率(即数据值的个数)。例如,可以根据年薪将人划分到诸如10000~20000美元、20000~30000美元等区间。令包含中位数频率的区间为中位数区间。我们可以使用如下公式,用插值计算整个数据集的中位数的近似值(例如,薪水的中位数):
其中,L1是中位数区间的下界,N是整个数据集中值的个数,46(freq)l是低于中位数区间的所有区间的频率和,freqmedian是中位数区间的频率,而width是中位数区间的宽度。
众数是另一种中心趋势度量。数据集的众数(mode)是集合中出现最频繁的值。因此,可以对定性和定量属性确定众数。可能最高频率对应多个不同值,导致多个众数。具有一个、两个、三个众数的数据集合分别称为单峰的(unimodal)、双峰的(bimodal)和三峰的(trimodal)。一般地,具有两个或更多众数的数据集是多峰的(multimodal)。在另一种极端情况下,如果每个数据值仅出现一次,则它没有众数。