各种处理
机器学习中拿到手的数据应该经过人为的处理
预处理
我们学习机器学习最先应该做的是获取数据,机器学习的数据我们一般从UCI这个网站获取。
对于使用pandas读取的数据集,我们想要快速获取数据集的简单描述,是关于每一行,每个属性的缺失值。通常我们使用info()函数。
X.info()#X是目标数据集
对于分类过的数据集,我们也可以读取类别一栏然后通过函数value_counts()来查看有多少个属性每个属性有多少样本。
X[class].value_counts()
当我们想获得每个属性的最大值,方差分位数等等,我们一般使用describe()方法来显示。
X.describe()
文本类型转换数据:OrdinalEncoder()将文本数据转换为数字类别
from sklearn.preprocessing import OrdinalEncoder
ordinal_encoder=OrdinalEncoder()
X_ordinal_encoder=ordinal_encoder.fit_transform(X["class"])
还有一种方法就是 LabelEncoder()
from sklearn.preprocessing imp

文章介绍了机器学习中数据预处理的步骤,包括数据获取、信息检查、缺失值处理等。对于分类数据,使用了LabelEncoder和OrdinalEncoder进行编码。处理缺失值的方法包括删除和填充。此外,讨论了训练集和测试集的创建,以及分层抽样的重要性。最后提到了模型评估和参数调优的重要性。
最低0.47元/天 解锁文章
1737

被折叠的 条评论
为什么被折叠?



