[学习笔记]Python数据清洗


数据清洗常用方法

本视频由B站学习总结而来

(1)数据的读写

import pandas as pd
pd.read_csv('文件路径')
pd.read_excel('文件路径')

(2)数据的探索与描述

df.info()
df.describe()
df.shape

(3)数据的简单处理

df.columns #查看列名

去除数据将的空格
英文字母大小写的转换

(4)重复值的处理

duplicated()
df.duplicated().sum() #返回重复值的个数
drop_duplicates()
若要将结果赋值到原数据集上,使用inplace=True
df.index #查看索引
df.index = range(df.shape[0]) #修改索引值

(5)缺失值的处理

df.isnull() #查看缺失值
df.notnull() #查看不是缺失值的数据
df.dropna() #删除缺失值
df.fillna() #填补缺失值
删除缺失值
均值填补法
向前填充/向后填充
模型填补法,如随机森林,KNN

(6)异常值的处理

三倍标准差:sta = (df[index] - df[index].mean()) / df[index].std()
df[sta.abs() > 3]
pd.conact([ ],[ ]) #合并两个异常条件

删除异常值的记录
作为缺失值处理
平均值修正、盖帽法修正
不处理:业务分析挖掘价值

(7)文本字符串的处理

去除前后空格处理
处理中间有,()之类的数据:replace(',','')
正则表达式提取所需的数据

(8)时间格式序列的处理

将系统时间格式化
系统时间和时间戳相互转化
年月日的提取

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值