数据挖掘——数据预处理(2)

本文探讨数据挖掘过程中的重要步骤——数据预处理。详细介绍了数据清洗、缺失值处理、异常值检测与处理、数据转换及归一化等关键技术,旨在提升数据质量,为后续分析打下坚实基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#统计缺失值
train = pd.read_csv("train.csv")
null_columns=train.columns[train.isnull().any()]
train[null_columns].isnull().sum()
#得到dataframe中,数据类型为object的列
obj_cols = list(train_x.select_dtypes(include=['object']).columns)
obj_cols

在这里插入图片描述

#展示一列数据各数值分布情况
import seaborn as sns
import matplotlib.pyplot as plt

ProductCD_counts = train_obj_cols['ProductCD'].value_counts()
plt.figure(figsize=(7,4))
sns.barplot(ProductCD_counts.index, ProductCD_counts.values, alpha=0.8)
plt.show()

在这里插入图片描述

#使用散点图查看特征之间的关系
# create dataframe from data in X_train
# label the columns using the strings in iris_dataset.feature_names
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
# create a scatter 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值