数据处理:
在数据挖崛中,数据探索之后,我们就该数据处理了,数据处理分为4步:
1. 数据清洗
2. 数据集成
3. 数据变换
4. 数据规约
数据处理之数据清洗:
1. 主要是删除无关数据,重复数据。
2. 处理异常缺失值
1. 删除
2. 不处理
3. 数据插补
今天主要是说说数据插补:
1. 插入 平均值/中位值/众数
2. 使用固定值插入
3. 就近插入
4. 回归放法
5. 插值法:拉格朗日插值法
from scipy.interpolate impoer lagrange
def compute(s, k=5, n):
s = s[list(range(n-k,n)) + list(range(n+1,n+k))]
s = s[s.notnull()]
return lagrange(y.index, list(s))(n)