[学习笔记]Python数据清洗_python 3倍标准差-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_45660543/article/details/113527581

文章目录

数据清洗常用方法

数据清洗常用方法

本视频由B站学习总结而来

（1）数据的读写

import pandas as pd
pd.read_csv('文件路径')
pd.read_excel('文件路径')

（2）数据的探索与描述

df.info()
df.describe()
df.shape

（3）数据的简单处理

df.columns #查看列名

去除数据将的空格
英文字母大小写的转换

（4）重复值的处理

duplicated()
df.duplicated().sum() #返回重复值的个数
drop_duplicates()
若要将结果赋值到原数据集上，使用inplace=True
df.index #查看索引
df.index = range(df.shape[0]) #修改索引值

（5）缺失值的处理

df.isnull() #查看缺失值
df.notnull() #查看不是缺失值的数据
df.dropna() #删除缺失值
df.fillna() #填补缺失值
删除缺失值
均值填补法
向前填充/向后填充
模型填补法，如随机森林，KNN

（6）异常值的处理

三倍标准差：sta = (df[index] - df[index].mean()) / df[index].std()
df[sta.abs() > 3]
pd.conact([ ],[ ]) #合并两个异常条件

删除异常值的记录
作为缺失值处理
平均值修正、盖帽法修正
不处理：业务分析挖掘价值

（7）文本字符串的处理

去除前后空格处理
处理中间有，（）之类的数据：replace(',','')
正则表达式提取所需的数据

（8）时间格式序列的处理

将系统时间格式化
系统时间和时间戳相互转化
年月日的提取