数据挖掘之数据预处理

数据挖掘前的重要步骤包括描述性数据汇总,如中心趋势度量和离中趋势度量,以及数据清理,涉及填充缺失值、平滑噪声数据和处理不一致性。此外,数据集成和数据变换也是关键,包括数据模式集成、数据值冲突处理、数据泛化和规范化等,以确保数据质量和挖掘效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一:描述性数据汇总

  在获得所需的全部数据后,首先应该对数据有一个总体印象--即在进行数据预处理之前,应该进行描述性数据汇总。

  首先就是中心趋势度量和离中趋势度量两个特征。

  中心趋势度量包括:均值,中位数,众数,中列数。--应用场景:为了找出数据的中心数据。

  离中趋势度量包括:四分位数,四分位数极差,方差,标准差。--应用场景:为了找出其他数据离中心数据的分散程度。

  均值:即某个属性的N个值取平均数(算术平均数)--应用场景:属性都是算术值,且数据的分布是对称的,没有极端值;或某个属性的N个值都有自己的权值,取加权平均数(加权平均数)--应用场景:属性都是算术值,且数据的分布是对称的,没有极端值,且需要判断值的权重占比、出现频率;去掉高低均值得到的平均数(截断均值)--应用场景:在数据中存在极端值时,且除了少数极端值,数据分布基本对称,数据为算术值。


  中位数:中位数是某个属性的N个数据进行排序后,最中心的数据(若为偶数,则为中间两个数的平均数)--应用场景:对于倾斜的(非对称)数据,中位数可以作为一个好的数据中心。

  

  众数:中位数是某个属性的N个数据中出现次数最多的数据(可有多个)。--应用场景:找出频率最高的数据。


  中列数:中列数是某个属性的N个数据中最大数和最

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值