scikit-learn的数据集

本文介绍如何使用Sklearn库加载数据集,如糖尿病数据集,并解析数据集的格式和属性,帮助读者理解数据集的加载过程及数据结构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据集是在datasets这个对象中,所以要从sklearn导入datasets这个模块。

1.载入数据集,例如diabetes数据集

diabetes = datasets.load_diabetes()

2.数据集datasets的格式:

datasets.load_diabetes()返回的是一个对象,该对象中包含data,target这两个属性,代表的是ndarray,

或者直接返回data和target

### Scikit-learn 数据集使用方法 Scikit-learn 提供了一系列内置的数据集,这些数据集可以直接加载并用于模型训练和测试。对于希望快速上手的人来说,这非常方便[^1]。 #### 加载内置数据集 为了加载 scikit-learn 的内置数据集,可以使用 `datasets` 模块中的函数: ```python from sklearn import datasets # 加载鸢尾花数据集 iris = datasets.load_iris() print(iris.data.shape, iris.target.shape) # 加载波士顿房价数据集 (注意:此数据集已被弃用,在新版本中推荐使用 fetch_california_housing) boston = datasets.load_boston(return_X_y=True) X, y = boston print(X.shape, y.shape) ``` #### 创建自定义数据集 除了现成的数据集外,还可以创建合成数据集来进行实验或教学目的: ```python import numpy as np from sklearn.datasets import make_classification # 构建二分类问题的人造数据集 X_custom, y_custom = make_classification(n_samples=1000, n_features=20, n_informative=2, n_redundant=10, random_state=42) print(X_custom.shape, y_custom.shape) ``` #### 下载外部数据集 当需要处理更复杂的真实世界场景时,则可以从互联网下载额外资源,并利用专门设计的功能将其转换为适合分析的形式: ```python from sklearn.datasets import fetch_openml # 获取 MNIST 手写数字识别数据库 mnist = fetch_openml('mnist_784', version=1) image_data, labels = mnist["data"], mnist["target"] print(image_data.shape, labels.shape) ``` 上述代码片段展示了如何获取不同类型的数据源以及它们的基本操作方式。通过这种方式,能够轻松地准备所需材料以支持后续的学习过程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值