Python 数据清洗之缺失数据填充fillna()

本文介绍了在数据量较大且缺失数据较少时直接删除,而在数据量小且缺失较多时如何使用Pandas的fillna()函数进行数据填充。通过实例展示了用0、特征均值、特征中位数以及前后值进行填充的方法,并演示了使用字典为不同列指定填充值的操作。这些方法对于数据预处理至关重要,确保数据分析的准确性和完整性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据量大,缺失数据比较少的情况下,可以直接滤除;数据量小,缺失数据比较多时,对数据进行填充就很有必要了。

数据填充函数fillna(),默认参数如下:

案例学习:

import numpy as np
from numpy import nan
import pandas as pd

data = pd.DataFrame(np.arange(3, 19, 1).reshape(4, 4), columns=list('abcd'), index=list("1234"))
print(data)
data.iloc[0:2, 0:3] = nan
print(data)

运行结果: 

# 用0填充缺失数据
print(data.fillna(0))

运行结果:

# 用每列特征的均值填充缺失数据
print(data.fillna(data.mean()))

运行结果:

# 用每列特征的中位数填充缺失数据
print(data.fillna(data.median()))

运行结果:

# 用相邻后面(back)特征填充前面空值
print(data.fillna(method='bfill'))
print(data.fillna(method='backfill'))

运行结果:

# 用相邻前面(before)特征填充后面空值
print(data.fillna(method='ffill'))
print(data.fillna(method='pad'))

运行结果:

# 用字典对不同的列填充不同的缺失数据
values = {"a": 10, "b": 20, "c": 30}
print(data.fillna(value=values))

运行结果:

完整代码如下:

import numpy as np
from numpy import nan
import pandas as pd

data = pd.DataFrame(np.arange(3, 19, 1).reshape(4, 4), columns=list('abcd'), index=list("1234"))
print(data)
data.iloc[1:2, 0:3] = nan
print(data)

# 用0填充缺失数据
print("\n用0填充缺失数据\n", data.fillna(0))

# 用每列特征的均值填充缺失数据
print("\n用每列特征的均值填充缺失数据\n", data.fillna(data.mean()))

# 用每列特征的中位数填充缺失数据
print("\n用每列特征的中位数填充缺失数据\n", data.fillna(data.median()))

# 用相邻后面(back)特征填充前面空值
print("\n用相邻后面(back)特征填充前面空值\n", data.fillna(method='bfill'))
print("\n用相邻后面(back)特征填充前面空值\n", data.fillna(method='backfill'))

# 用相邻前面(before)特征填充后面空值
print("\n用相邻前面(before)特征填充后面空值\n", data.fillna(method='ffill'))
print("\n用相邻前面(before)特征填充后面空值\n", data.fillna(method='pad'))

# 用字典对不同的列填充不同的缺失数据
values = {"a": 10, "b": 20, "c": 30}
print("\n用字典对不同的列填充不同的缺失数据\n", data.fillna(value=values))
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值