机器学习笔记 - Python数据清理通用流程简述

本文概述了机器学习中数据清理的重要性,详细介绍了处理缺失值、异常值、重复项、数据错误和不一致的方法。使用Python库如Pandas进行数据清理,包括填充缺失值、检测和处理异常值、删除重复数据。此外,还讨论了数据转换和特征工程,如归一化、编码分类变量以及特征工程技术的应用。最后,提到了数据清理的一些实践和技巧,强调了保持原始数据、记录清理过程和避免引入偏差的重要性。

一、简述

        Python中数据清理是重要的环节,并通过解决缺失值、离群值、重复和不一致等常见问题以进行下一步的数据分析。

        通常我们开始一个新的数据项目时,通因为各种各样的问题,通常获得的数据很少能直接上到模型里面去跑,所以要进行清理,清理数据是一个消除错误、异常值和不一致并确保所有数据采用适合我们分析的格式的过程。

        包含许多错误或未经过此数据清理过程的数据称为脏数据。

        比如下面的一个小数据集,虽然大家分数都不高,但是小李有两条重复的数据,如果我们计算分数列的平均值,那么这个数据是不准确的。

姓名 分数
小李 36
小王 40
小李 36
小张 35

二、脏数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

坐望云起

如果觉得有用,请不吝打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值