数据量大,缺失数据比较少的情况下,可以直接滤除;数据量小,缺失数据比较多时,对数据进行填充就很有必要了。
数据填充函数fillna(),默认参数如下:
案例学习:
import numpy as np
from numpy import nan
import pandas as pd
data = pd.DataFrame(np.arange(3, 19, 1).reshape(4, 4), columns=list('abcd'), index=list("1234"))
print(data)
data.iloc[0:2, 0:3] = nan
print(data)
运行结果:
# 用0填充缺失数据
print(data.fillna(0))
运行结果:
# 用每列特征的均值填充缺失数据
print(data.fillna(data.mean()))
运行结果:
# 用每列特征的中位数填充缺失数据
print(data.fillna(data.median()))
运行结果:
# 用相邻后面(back)特征填充前面空值
print(data.fillna(method='bfill'))
print(data.fillna(method='backfill'))
运行结果:
# 用相邻前面(before)特征填充后面空值
print(data.fillna(method='ffill'))
print(data.fillna(method='pad'))
运行结果:
# 用字典对不同的列填充不同的缺失数据
values = {"a": 10, "b": 20, "c": 30}
print(data.fillna(value=values))
运行结果:
完整代码如下:
import numpy as np
from numpy import nan
import pandas as pd
data = pd.DataFrame(np.arange(3, 19, 1).reshape(4, 4), columns=list('abcd'), index=list("1234"))
print(data)
data.iloc[1:2, 0:3] = nan
print(data)
# 用0填充缺失数据
print("\n用0填充缺失数据\n", data.fillna(0))
# 用每列特征的均值填充缺失数据
print("\n用每列特征的均值填充缺失数据\n", data.fillna(data.mean()))
# 用每列特征的中位数填充缺失数据
print("\n用每列特征的中位数填充缺失数据\n", data.fillna(data.median()))
# 用相邻后面(back)特征填充前面空值
print("\n用相邻后面(back)特征填充前面空值\n", data.fillna(method='bfill'))
print("\n用相邻后面(back)特征填充前面空值\n", data.fillna(method='backfill'))
# 用相邻前面(before)特征填充后面空值
print("\n用相邻前面(before)特征填充后面空值\n", data.fillna(method='ffill'))
print("\n用相邻前面(before)特征填充后面空值\n", data.fillna(method='pad'))
# 用字典对不同的列填充不同的缺失数据
values = {"a": 10, "b": 20, "c": 30}
print("\n用字典对不同的列填充不同的缺失数据\n", data.fillna(value=values))