6.1 使用scikit-learn构建模型

最新推荐文章于 2025-02-13 22:00:00 发布

原创

最新推荐文章于 2025-02-13 22:00:00 发布 · 772 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#scikit-learn #python #机器学习

6.1 使用scikit-learn构建模型

6.1.1 使用sklearn转换器处理数据
6.1.2 将数据集划分为训练集和测试集
6.1.3 使用sklearn转换器进行数据预处理与降维
- 1、数据预处理
- 2、PCA降维算法
代码

scikit-learn（简称sklearn）库整合了多种机器学习算法，可以帮助使用者在数据分析过程中快速建立模型，且模型接口统一，使用起来非常方便。同时，sklearn拥有优秀的官方文档，知识点详尽，内容丰富，是入门学习sklearn的最佳内容。

开源机器学习库：https://scikit-learn.org/stable/index.html 开源机器学习库
在这里插入图片描述
涵盖分类、回归、聚类、降维、模型选择、数据预处理六大模块

6.1.1 使用sklearn转换器处理数据

sklearn提供了model_selection模型选择模块、preprocessing数据预处理模块与decomoisition特征分解模块。通过这三个模块能够实现数据的预处理与模型构建前的数据标准化、二值化、数据集的分割、交叉验证和PCA降维等工作。

datasets模块常用数据集的加载函数与解释如下表所示：
波士顿房价、鸢尾花、红酒数据集
在这里插入图片描述
使用sklearn进行数据预处理会用到sklearn提供的统一接口——转换器（Transformer）。
加载后的数据集可以视为一个字典，几乎所有的sklearn数据集均可以使用data，target，feature_names，DESCR分别获取数据集的数据，标签，特征名称和描述信息。

from sklearn.datasets import load_boston  # 波士顿房价数据集
from sklearn.datasets import load_breast_cancer  # 癌症数据集
# cancer = load_breast_cancer()  # 读取数据集
# print("长度: ", len(cancer))
# print("类型: ", type(cancer))
boston = load_boston()  # 读取数据集
print("长度: ", len(boston))
# print(boston)
print('data:\n', boston['data'])  # 数据
print(