Python数据分析——数据探索与数据清洗

数据探索与数据清洗概述

数据探索的目的是早发现数据的一些简单规律,数据清洗的目的是留下可靠数据,必满脏数据的干扰。这两者没有严格的先后顺序。经常在一个阶段进行。

数据探索核心

数据质量分析(跟数据清洗密切相关)

数据特征分析(分布、对比、周期性、相关性、常见统计量)

数据清洗的步骤

1、缺失值处理(通过describe与len直接发现、通过0数据发现【不可能为0的数据】)

2、异常值处理(通过散点图发现【数据偏离太大就可以预估为异常数据】)

一般遇到缺失值,处理方式为(删除、插补、不处理)

插补的方式有:均值插补、中位数插补、众数插补、固定值插补、最近数据插补、回归插补、拉格朗日插值、牛顿插值法、分段插值法等等

遇到异常值,一般处理的方式为视为缺失值、删除、修补(平均数、中位数等等)、不处理。

import pandas as pd
data = pd.read_csv('文件名')
print(data.describe())

# 缺失值处理
len(data)  # 如果数据不同,则存在缺失值
data['异常字段'][data['异常字段']==0]==None
x = 0
for i in data.columns:
    for j in range(len(data)):
        if (data[i].isnull)[j]:
            data[i][j]='*'
            x = x+1
print(x)  

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

General_单刀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值