文章目录
零、学习目标
- 掌握数据清洗的常见操作
- 掌握数据合并的常用方法
- 掌握数据重塑的常见操作
- 掌握数据转换的常见操作
一、数据清洗
(一)数据清洗概述
- 数据清洗是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。
- 数据清洗的目的在于提高数据质量,将脏数据清洗干净,使原数据具有完整性、唯一性、权威性、合法性、一致性等特点。
- 脏数据在这里指的是对数据分析
没有实际意义
、格式非法
、不在指定范围内
的数据。
(二)空值和缺失值的处理
1、空值和缺失值概念
- 空值一般表示数据未知、不适用或将在以后添加数据。缺失值是指数据集中某个或某些属性的值是不完整的。一般空值使用
None
表示,缺失值使用NaN
表示。
2、空值和缺失值处理函数
- Pandas中提供了一些用于检查或处理空值和缺失值的函数或方法。使用
isnull()
和notnull()
函数可以判断数据集中是否存在空值和缺失值。对于缺失数