文章目录
数据清洗常用方法
本视频由B站学习总结而来
(1)数据的读写
import pandas as pd
pd.read_csv('文件路径')
pd.read_excel('文件路径')
(2)数据的探索与描述
df.info()
df.describe()
df.shape
(3)数据的简单处理
df.columns #查看列名
去除数据将的空格
英文字母大小写的转换
(4)重复值的处理
duplicated()
df.duplicated().sum() #返回重复值的个数
drop_duplicates()
若要将结果赋值到原数据集上,使用inplace=True
df.index #查看索引
df.index = range(df.shape[0]) #修改索引值
(5)缺失值的处理
df.isnull() #查看缺失值
df.notnull() #查看不是缺失值的数据
df.dropna() #删除缺失值
df.fillna() #填补缺失值
删除缺失值
均值填补法
向前填充/向后填充
模型填补法,如随机森林,KNN
(6)异常值的处理
三倍标准差:sta = (df[index] - df[index].mean()) / df[index].std()
df[sta.abs() > 3]
pd.conact([ ],[ ]) #合并两个异常条件
删除异常值的记录
作为缺失值处理
平均值修正、盖帽法修正
不处理:业务分析挖掘价值
(7)文本字符串的处理
去除前后空格处理
处理中间有,()之类的数据:replace(',','')
正则表达式提取所需的数据
(8)时间格式序列的处理
将系统时间格式化
系统时间和时间戳相互转化
年月日的提取