一:描述性数据汇总
在获得所需的全部数据后,首先应该对数据有一个总体印象--即在进行数据预处理之前,应该进行描述性数据汇总。
首先就是中心趋势度量和离中趋势度量两个特征。
中心趋势度量包括:均值,中位数,众数,中列数。--应用场景:为了找出数据的中心数据。
离中趋势度量包括:四分位数,四分位数极差,方差,标准差。--应用场景:为了找出其他数据离中心数据的分散程度。
均值:即某个属性的N个值取平均数(算术平均数)--应用场景:属性都是算术值,且数据的分布是对称的,没有极端值;或某个属性的N个值都有自己的权值,取加权平均数(加权平均数)--应用场景:属性都是算术值,且数据的分布是对称的,没有极端值,且需要判断值的权重占比、出现频率;去掉高低均值得到的平均数(截断均值)--应用场景:在数据中存在极端值时,且除了少数极端值,数据分布基本对称,数据为算术值。
中位数:中位数是某个属性的N个数据进行排序后,最中心的数据(若为偶数,则为中间两个数的平均数)--应用场景:对于倾斜的(非对称)数据,中位数可以作为一个好的数据中心。
众数:中位数是某个属性的N个数据中出现次数最多的数据(可有多个)。--应用场景:找出频率最高的数据。
中列数:中列数是某个属性的N个数据中最大数和最