[Python] 机器学习模块 sklearn 学习笔记

最新推荐文章于 2024-05-06 14:33:29 发布

文森特没有眼泪

最新推荐文章于 2024-05-06 14:33:29 发布

阅读量968

点赞数

CC 4.0 BY-SA版权

分类专栏： Python 文章标签： Python

本文链接：https://blog.youkuaiyun.com/weixin_44614687/article/details/91678717

本文是《盘一盘 Python 系列 8 - Sklearn》的学习笔记。

sklearn 建立在 NumPy，SciPy，Pandas 和 Matplotlib 上，是机器学习任务的通用模块。Sklearn 里面有六大任务模块：分别是分类、回归、聚类、降维、模型选择和预处理，分别位于 sklearn、 sklearn.linear_model、 sklearn.ensemble、 sklearn.cluster、 sklearn.decomposition、 sklearn.model_selection 和 sklearn.preprocessing 子模块里。同时 slearn 还带有一些数据集，可以从 sklearn.datasets 载入。

API

sklearn 里的所有对象都是估计器，可以把它近似看成一个机器学习的模型（回归、分类、聚类、降维）或一个流程（预处理、参数网格化）。sklearn 里估计器有三类：

估计器（estimator）本身；
预测器（predictor）：带有预测功能的估计器；
转换器（transformer）：带有转换功能的估计器。

估计器

任何可以基于数据集对一些参数进行估计的对象都被称为估计器。

超参数：创建估计器的时候需要设定超参数，如

线性回归里超参数 normalize=True
K 均值里超参数 n_clusters=3
创建好估计器 model 以后可以直接访问超参数：
model.normalize
model.n_clusters

拟合估计器：需要使用训练集训练估计器。有监督学习的代码为 model.fit(X_train, y_train)，无监督学习的代码为 model.fit(X_train)。拟合完成以后可以访问 model 里学到的参数，比如

model.coef_
model.labels_

拟合以后生成的参数比超参数在结尾多了一个 _。

预测器

预测器基于学到的知识预测，最常见的是 predict() 函数：

model.predict(X_test)：评估模型在新数据上的表现
model.predict(X_train)：确认模型在老数据上的表现

对于分类问题，有时候我们不仅想知道预测的类别是什么，还想知道预测的信心如何，这时候可以用 predict_proba()。另外还有一个函数 score() 返回分类准确率。

转换器

估计器用 fit + predict，转换器用 fit + transform。

将分类型变量 (categorical) 编码成数值型变量 (numerical)
LabelEncoder 和 OrdinalEncoder 都可以将字符转成数字，但是

LabelEncoder 的输入是一维，比如 1d ndarray
OrdinalEncoder 的输入是二维，比如 DataFrame
首先载入两个函数，创建两个列表：

>>> from sklearn.preprocessing import LabelEncoder
>>> from sklearn.preprocessing import OrdinalEncoder
>>> enc = ["red",

最低0.47元/天解锁文章

200万优质内容无限畅学

[Python] 机器学习模块 sklearn 学习笔记

文章目录

API

估计器

预测器

转换器