学习笔记(三)数据预处理之数据清理

数据预处理是提升数据质量的关键步骤,包括数据清理、集成、归约和变换。数据清理专注于处理缺失值、噪声数据和不一致性。缺失值可选择忽略、人工填充、使用统计指标填充或推理填充。噪声数据可通过分箱和回归进行光滑处理。离群点检测通常结合聚类方法。数据清理需要元数据辅助,使用各种工具进行偏差检测和数据修正,如数据清洗、审计、迁移工具以及ETL。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据预处理

1概述。为了提高数据的质量,数据质量涉及准确性、完整性、一致性、时效性、可信性(反应多少数据是用户信赖的)和可解释性(反映数据是否容易理解)。数据预处理的主要步骤:数据清理、数据集成、数据归约和数据变换

数据清理:例程通过填写缺失的值,光滑噪声数据、识别或删除离群点,并解决不一致性来“清理”数据。数据集成:集成多个数据库、数据立方体或文件。数据归约:得到数据的简化表示,它小但能够产生同样的分析结果。(包括维归约和数值归约)。规范化、数据离散化和概念分层产生都是某种形式的数据变换

2数据清理。

数据清理:试图填充缺失值、光滑噪声并且识别离群点、纠正数据中的不一致。

缺失值的处理方法:

  1. 忽略元祖:当缺少类标号时常这样
  2. 人工填写缺失值:费时,数据量超大时不靠谱
  3. 使用一个全局常量填充缺失值:例如NA,+替换,但是如果全用NA可能会形成一个有趣的概念,他们拥有相同的值。
  4. 使用属性的中心度量(均值、中位数)填充缺失值:对于对称数据使用均值,而倾斜数据的分布应该使用中位数填充。
  5. 使用与给定元祖组同属一类的所有样本的属性均值或中位数
  6. 使用最可能的值填充缺失值:利用回归、贝叶斯形式化的方法基于推理工具或决策树归纳确定。

注意:缺失值并不意味着数据有错误。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值