数据清洗

博客主要介绍了数据清洗与处理的相关内容,包括解决数据中的重复值、空值、异常值等问题。详细说明了查找和删除重复值、判断和处理空值的方法,还提及了格式转换、去除空格、大小写转换、异常数据替换、数据分组、分列和匹配等操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先解决:数据中的重复值,异常值,空值,以及多余的空格和大小写错误的问题

数据表中的重复值
duplicated()查找并显示数据表中的重复值
说明:1、当两个条目间所有列的内容都相等时才会判断为重复(如条目1和4)2、duplicated支持从前往后(first)和从后往前(last)两种查找模式,默认是first,将后出现的相同条目判断为重复值,显示为True。
drop_duplicates()删除数据表中的重复值,返回只包含唯一值的数据表,其他与duplicated一样。
数据表中的空值
isnull()如果是空值显示True,notnull()如果是空值显示False
loandata[‘loan_amnt’].isnull().value_counts()获得空值数据量
空值的处理方法:1、fillna()填充;2、dropna删除
对某些数值进行格式转换astype()
数据间的空格
去除空格的方法:
loandata[‘term’]=loandata[‘term’].map(str.strip)去除数据两边的空格
loandata[‘term’]=loandata[‘term’].map(str.lstrip)去除数据左边的空格
loandata[‘term’]=loandata[‘term’].map(str.rstrip)去除数据右边的空格、
大小写转换
三种方法:
loandata[‘term’]=loandata[‘term’].map(str.upper)转换成大写
loandata[‘term’]=loandata[‘term’].map(str.lower)转换成小写
loandata[‘term’]=loandata[‘term’].map(str.title)转换成首字母大写
数据中的极端值和异常值
describe()统计计数、均值、标准差、最大最小值、百分位
异常数据替换
replace()
更改数据格式
astype()
数据分组
cut()
bins = [0, 5, 10, 15, 20]
group_names = [‘A’, ‘B’, ‘C’, ‘D’]
loandata[‘categories’] = pd.cut(loandata[‘open_acc’], bins, labels=group_names)
数据分列
split()
grade_split = pd.DataFrame((x.split(‘-‘) for x in loandata.grade),index=loandata.index,columns=[‘grade’,’sub_grade’])
merge()匹配
loandata=pd.merge(loandata,grade_split,right_index=True, left_index=True)
匹配回原数据表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值