数据探索与数据清洗概述
数据探索的目的是早发现数据的一些简单规律,数据清洗的目的是留下可靠数据,必满脏数据的干扰。这两者没有严格的先后顺序。经常在一个阶段进行。
数据探索核心
数据质量分析(跟数据清洗密切相关)
数据特征分析(分布、对比、周期性、相关性、常见统计量)
数据清洗的步骤
1、缺失值处理(通过describe与len直接发现、通过0数据发现【不可能为0的数据】)
2、异常值处理(通过散点图发现【数据偏离太大就可以预估为异常数据】)
一般遇到缺失值,处理方式为(删除、插补、不处理)
插补的方式有:均值插补、中位数插补、众数插补、固定值插补、最近数据插补、回归插补、拉格朗日插值、牛顿插值法、分段插值法等等
遇到异常值,一般处理的方式为视为缺失值、删除、修补(平均数、中位数等等)、不处理。
import pandas as pd
data = pd.read_csv('文件名')
print(data.describe())
# 缺失值处理
len(data) # 如果数据不同,则存在缺失值
data['异常字段'][data['异常字段']==0]==None
x = 0
for i in data.columns:
for j in range(len(data)):
if (data[i].isnull)[j]:
data[i][j]='*'
x = x+1
print(x)