机器学习实战

文章介绍了机器学习中数据预处理的步骤,包括数据获取、信息检查、缺失值处理等。对于分类数据,使用了LabelEncoder和OrdinalEncoder进行编码。处理缺失值的方法包括删除和填充。此外,讨论了训练集和测试集的创建,以及分层抽样的重要性。最后提到了模型评估和参数调优的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

各种处理

机器学习中拿到手的数据应该经过人为的处理

预处理

我们学习机器学习最先应该做的是获取数据,机器学习的数据我们一般从UCI这个网站获取。

对于使用pandas读取的数据集,我们想要快速获取数据集的简单描述,是关于每一行,每个属性的缺失值。通常我们使用info()函数

X.info()#X是目标数据集

对于分类过的数据集,我们也可以读取类别一栏然后通过函数value_counts()来查看有多少个属性每个属性有多少样本。

X[class].value_counts()

当我们想获得每个属性的最大值,方差分位数等等,我们一般使用describe()方法来显示。

X.describe()

文本类型转换数据:OrdinalEncoder()将文本数据转换为数字类别

from sklearn.preprocessing import OrdinalEncoder
ordinal_encoder=OrdinalEncoder()
X_ordinal_encoder=ordinal_encoder.fit_transform(X["class"])

还有一种方法就是 LabelEncoder()

from sklearn.preprocessing imp
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

first青年危机

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值