机器学习实战

原创

已于 2023-01-15 15:22:52 修改 · 755 阅读

CC 4.0 BY-SA版权

文章标签：

于 2023-01-13 12:17:19 首次发布

文章介绍了机器学习中数据预处理的步骤，包括数据获取、信息检查、缺失值处理等。对于分类数据，使用了LabelEncoder和OrdinalEncoder进行编码。处理缺失值的方法包括删除和填充。此外，讨论了训练集和测试集的创建，以及分层抽样的重要性。最后提到了模型评估和参数调优的重要性。

各种处理

机器学习中拿到手的数据应该经过人为的处理

我们学习机器学习最先应该做的是获取数据，机器学习的数据我们一般从UCI这个网站获取。

对于使用pandas读取的数据集，我们想要快速获取数据集的简单描述，是关于每一行，每个属性的缺失值。通常我们使用info()函数。

X.info()#X是目标数据集

对于分类过的数据集，我们也可以读取类别一栏然后通过函数value_counts()来查看有多少个属性每个属性有多少样本。

X[class].value_counts()

当我们想获得每个属性的最大值，方差分位数等等，我们一般使用describe()方法来显示。

X.describe()

文本类型转换数据：OrdinalEncoder()将文本数据转换为数字类别

from sklearn.preprocessing import OrdinalEncoder
ordinal_encoder=OrdinalEncoder()
X_ordinal_encoder=ordinal_encoder.fit_transform(X["class"])

还有一种方法就是 LabelEncoder（）

from sklearn.preprocessing imp