《数据清洗的那些事儿》
内容包括两个部分:
一、什么是数据清洗
二、数据清洗的常见问题:1处理离群点、2改善数据、3数据调和、4标准化
一、数据清洗含义:
检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声。通俗来讲就是把脏数据清洗掉,提高数据质量。
二、数据清洗的常见问题:
1.数据清洗常见问题之处理离群点
对离群点最简单的解释是:离群点是和其余数据不匹配的数据点。按照惯例,任何过高、过低或者异常(基于项目背景)的数据都是离群点。作为数据清洗的一部分,数据科学家通常要识别出离群点并用通用的方法解决它:
· 删除离群点的值,甚至是离群点对应的实际变量。
· 转换变量值或变量本身。
2.数据清洗常见问题之改善数据
通过改善进行数据清