sklearn之datasets模块常用功能详细介绍

本文针对机器学习初学者,详细介绍了sklearn.datasets模块的loader和maker两个主要模块,包括数据集加载和数据生成。举例说明了如何使用boston房价数据集,并展示了如何生成分类型和回归型数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

序言

datasets模块对我们初入机器学习的小萌新来说,真的是帮助很大,但是去官网阅读又都是英文,阅读起来有点困难。基于这点,特意写了这篇文章来简单介绍datasets的2个主要模块。
每个模块会有一个简单的示例,告诉我们怎样获得数据,这篇文章主要将获得数据,所以不会关注模型的训练测试相关的知识,需要了解相关知识的看我的其他博文。

datasets简单概述

官方文档
sklearn.datasets包含三个主要的获得数据的模块

  • loader模块:其中包含了一些很小的,很标准的,不需要进行数据处理的,可以直接使用模型训练的数据集,
    比如波士顿房间数据集,这个模块中的数据集在安装sklearn时已经自动下载下来了。通用格式为load_*()
  • fetcher模块:这个模块用来下载在现实生活中的大型的数据集,通用格式为fetch_*()
  • maker模块:这个模块用来自己生成数据,通用格式为maker_*()
    三个模块返回的数据都是字典形式一定有data,target这两个键
    字典中data存储数据是,一个(n_samples*n_features)的numpy二维数组,
    target存储数据的标签,feature_names存储特征的名字, targe存储标签的名字
    需要注意的是,fetcher,maker产生的数据返回值中不一定有feature_names这个键

loader模块

数据集总览

数据集 获得方法 适用模型
波士顿房价数据集 load_boston() 回归模型
鸢尾花数据集 load_irir() 分类模型
糖尿病数据集 load_diabetes 回归模型
手写数字识别数据集 load_digits() 分类模型
Linnerud数据集 load_linnerud 多输出回归模型
红酒数据集 load_wine() 分类模型
乳腺癌数据集 load_breast_cancer() 分类模型

示例(boston房价数据集)

# loader模块展示波士顿房价数据集
# boston房价数据集用于回归模型的学习
boston = datasets.load_boston()
X, y = boston['data']
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值