Python数据分析与挖掘实战——第三章

本文深入探讨Python数据分析的第三章,主要内容包括数据探索、数据质量分析(如缺失值、异常值和一致性分析)以及数据特征分析(如分布、对比、统计和相关性分析)。通过对数据的多角度剖析,旨在提升数据预处理和理解的能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第三章 数据探索

目录

第三章 数据探索

一、数据探索

二、数据质量分析

1. 主要任务:

2. 缺失值分析

3. 异常值分析

4. 一致性分析

三、数据特征分析

1. 分布分析

2. 对比分析

3. 统计量分析

4. 周期性分析

5. 贡献度分析

6. 相关性分析


 

一、数据探索

  • 数据集的质量和数量
  • 没有设想过的数据状态
  • 规律和趋势
  • 各因素的关联性

 

二、数据质量分析

数据预处理的前提

1. 主要任务

检查原始数据中是否存在脏数据

脏数据:不符合要求,以及不能直接进行相应分析的数据

包括:缺失值、异常值、不一致的值(一致性、重复数据及含有特殊符号(如#、¥、*)的数据

2. 缺失值分析

包含:记录的缺失、字段的缺失

原因:无法获取、成本高、遗漏

影响:有用信息丢失、不确定性↑、建模混乱

分析:含缺失值的属性的个数、每个属性的未缺失数、缺失数、缺失率

处理:删除、插补、不处理

3. 异常值分析

录入错误、不合常理的数据、数值明显偏离其余的观测值

异常值也称离群点、异常值分析也称为离群点分析

  • 1) 简单统计量分析

最大值、最小值  看是否超过

  • 2) 3δ原则

如果是正态分布,看是否距离平均值3δ之外

如果不是正态分布,可以看远离平均值多少倍来衡量

  • 3)箱型图分析

4. 一致性分析

数据的矛盾性、不相容性

来源:不同数据源、重复存放的数据未能进行一致性更新造成的

 

三、数据特征分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值