一、介绍
数据清洗主要内容是删除原始数据集中的无关数据、重复数据,平滑噪声数据,刷选掉与挖掘主题无关的数据,处理缺失值、异常值等。
二、缺失值处理
缺失值处理的方法分为三类:删除记录、数据插补和不处理。常见的数据插补方法如下图:
其中,需要介绍的两个插值法为:拉格朗日插值法和牛顿插值法。
2.1 拉格朗日插值法
2.2 牛顿插值法
3、关于拉格朗日插值法的示例
#拉格朗日插值代码
import pandas as pd #导入数据分析库Pandas
from scipy.interpolate import lagrange #导入拉格朗日插值函数
inputfile = 'data/catering_sale.xls' #销量数据路径
outputfile = 'sales.xls' #输出数据路径
In [35]:
data = pd.read_excel(inputfile) #读入数据
data
Out[35]: