Python 数据处理 缺失值处理
数据来源:https://forge.educoder.net/attachments/download/376915/input.zip


dataframe 缺失值处理
查看缺失值情况
train.isnull().sum().sort_values(ascending = False)

缺失值处理
def solve_nan_str(data, columns):
for column in columns:
if data[column].dtype != 'float64': # 字符串数据
data[column] = data[column].fillna(0) # 缺失值补0
unique_list = data[column].unique().tolist() # 字符串列表
if 0 in unique_list:
unique_list.remove(0)
for index, unique_ in enumerate(unique_list): # 字符串Label
data.loc[data[column] == unique_, column] = index
else:
data[column] = data[column].fillna(data[column].mean())
return data

本文介绍了一种在Python中处理数据集缺失值的方法,通过使用pandas库的isnull()函数检查缺失值,并提供了一个自定义函数来填充或替换缺失值。对于字符串数据,缺失值被替换为0并进行Label编码;对于数值数据,则使用列平均值进行填充。
799

被折叠的 条评论
为什么被折叠?



