缺失数据处理的三种方法
以表table_missing为例
导入数据:
import pandas as pd
import numpy as np
df = pd.read_csv('data/table_missing.csv')
df.head()
表如下:

1. 方法一:填充,fillna方法
(a)值填充与前后向填充
df['Physics'].fillna('missing').head()##值填充
df['Physics'].fillna(method='ffill').head()##向前填充
df['Physics'].fillna(method='backfill').head() ##向后填充
(b)填充中的对齐特性
df_f = pd.DataFrame({
'A':[1,3,np.nan],'B':[2,4,np.nan]

本文介绍了处理缺失数据的三种方法:使用fillna进行填充,包括值填充和前后向填充;使用dropna进行剔除,按行、列操作,并结合how参数和subset参数实现数据过滤;最后,探讨了插值方法,如线性插值和高级插值在处理缺失值中的应用。并提供了实例练习,涉及删除缺失值超25%的列、不同类型数据的筛选及统计列缺失比例等。
最低0.47元/天 解锁文章
4275

被折叠的 条评论
为什么被折叠?



