数据预处理方法

  数据预处理可以提高数据的质量,从而有助于提高后续学习过程的精度和性能。通常预处理方法包含以下几种:

  1、数据清理

  数据清理通过填充缺失值,光滑噪声,识别离群点,并纠正数据中的不一致等技术来进行这里我们主要介绍缺失值、噪声数据和不一致数据的数据清理方法。

  缺失值填充:缺失值对于无监督学习结果会带来影响,通常采用以下方法进行填充

      1) 删除含有缺失值的样本:无监督学习过程中不使用有缺失值的元组,即在无监督学习过程中删除含有缺失值的样本。此方法的缺点是删除含有缺失值的样本可能使得留下的样本用于学习的样本不能完全正确反映原始数据的分布状态,使得学习结果偏离真实情况,不能发现数据的原始分布。因此该方法不是很有效的样本缺失值处理方法,除非元组有多个属性值空缺时才采用此方法,否则不采用此方法。

    2) 人工填写缺失值:该方法就是人工补充样本的缺失值因此非常费时不适于大规模数据集的无监督学习数据预处理。    

    3) 使用一个全局常量填充缺失值:该方法虽然简单,但并不是很可靠,因为仍然存在偏离数据原始分布信息的问题。从而使得学习结果无法发现所学习数据中隐藏的真实信息。

    4) 使用属性的均值填充缺失值该方法相对上一方法要好些但仍然存在偏离原始数据分布信息的潜在危险

    5) 使用与给定元组同一类的所有样本的属性均值填充相应的缺失值:该方法比使用属性均值填充缺失值更好,更能接近原始数据的分部信息

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值