sklearn之datasets模块常用功能详细介绍

最新推荐文章于 2025-05-28 11:15:43 发布

原创

最新推荐文章于 2025-05-28 11:15:43 发布 · 7.8k 阅读

87 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习 #人工智能 #sklearn #新星计划

本文针对机器学习初学者，详细介绍了sklearn.datasets模块的loader和maker两个主要模块，包括数据集加载和数据生成。举例说明了如何使用boston房价数据集，并展示了如何生成分类型和回归型数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

序言

datasets模块对我们初入机器学习的小萌新来说，真的是帮助很大，但是去官网阅读又都是英文，阅读起来有点困难。基于这点，特意写了这篇文章来简单介绍datasets的2个主要模块。
每个模块会有一个简单的示例，告诉我们怎样获得数据，这篇文章主要将获得数据，所以不会关注模型的训练测试相关的知识，需要了解相关知识的看我的其他博文。

datasets简单概述

官方文档
sklearn.datasets包含三个主要的获得数据的模块

loader模块：其中包含了一些很小的，很标准的，不需要进行数据处理的，可以直接使用模型训练的数据集，
比如波士顿房间数据集，这个模块中的数据集在安装sklearn时已经自动下载下来了。通用格式为load_*()
fetcher模块：这个模块用来下载在现实生活中的大型的数据集，通用格式为fetch_*()
maker模块：这个模块用来自己生成数据，通用格式为maker_*()
三个模块返回的数据都是字典形式。一定有data，target这两个键
字典中data存储数据是，一个(n_samples*n_features)的numpy二维数组，
target存储数据的标签，feature_names存储特征的名字, targe存储标签的名字
需要注意的是，fetcher，maker产生的数据返回值中不一定有feature_names这个键

loader模块

数据集总览

数据集	获得方法	适用模型
波士顿房价数据集	load_boston()	回归模型
鸢尾花数据集	load_irir()	分类模型
糖尿病数据集	load_diabetes	回归模型
手写数字识别数据集	load_digits()	分类模型
Linnerud数据集	load_linnerud	多输出回归模型
红酒数据集	load_wine()	分类模型
乳腺癌数据集	load_breast_cancer()	分类模型

示例（boston房价数据集）

# loader模块展示波士顿房价数据集
# boston房价数据集用于回归模型的学习
boston = datasets.load_boston()
X, y = boston['data']

最低0.47元/天解锁文章

200万优质内容无限畅学