文章目录
一、缺失值观察与处理
#加载所需的库
import numpy as np
import pandas as pd
#加载数据train.csv
df = pd.read_csv('train.csv')
1. 缺失值观察
df.info() #按列读取数据的详细信息,包括列名、非空数和数据类型
df.isnull().sum() #按列返回缺失值的总数
df.isna().mean() #按列返回缺失值的比例
df[df.isna().any(1)] #返回至少有一个缺失值的行
#isna() 和 isnull()完全相同
2. 缺失值处理
(1)删除
df.dropna(
axis=0, #{0:'i

本文介绍了数据清洗的关键步骤,包括缺失值的观察与处理,如删除和填充;重复值的观察与删除;以及特征的观察与处理,如数值型特征的分箱和文本型特征的转换。示例中提到了pandas库在数据处理中的应用。
最低0.47元/天 解锁文章
3477

被折叠的 条评论
为什么被折叠?



