鸢尾花(iris)数据集保存到本地以及sklearn其他数据集下载保存

本文介绍了如何使用Python的sklearn库下载并处理常见的机器学习数据集,如鸢尾花数据集和波士顿房价数据集,并将其转换为Excel文件格式。
部署运行你感兴趣的模型镜像

鸢尾花数据集

问题起源

在机器学习到分类问题时,使用sklearn下载数据集的时候,不是很明白具体怎么下载的,以及如何下载其他数据集,于是仔细思考了一番

查看鸢尾花数据集

首先先看代码块

#从sklearn数据集导入我们要的iris数据集,iris数据集调用在下方
from sklearn.datasets import load_iris
iris = load_iris()
#数据集并不能直接用,通过pandas的DataFrame来转化
import pandas as pd

#col是列名
col = list(iris["feature_names"])
#在iris数据集中,标签在"data"数组里,标记在"target"数组里
m1 = pd.DataFrame(iris.data,index=range(150),columns=col)
m2 = pd.DataFrame(iris.target,index=range(150),columns=["outocme"])

#将上述两张DataFrame表连接起来,how是DataFrame参数,可以不写,这里用外连接。不清楚外连接的可以看下SQL语句
m3 = m1.join(m2,how='outer')

#to_excel语句转化成excel格式,后缀名为.xls
m3.to_excel("./test.xls")


在这里插入图片描述
查看关于sklearn数据集的下载方式后,这两句代码就是照着来的

from sklearn.datasets import load_iris
iris = load_iris()

明白之后,我们可以先直接输出iris数据集看看

from sklearn.datasets import load_iris
iris = load_iris()
print(iris)

在这里插入图片描述
拖到最下端,发现没显示全,点击Soft-Wrap按钮
在这里插入图片描述

可以看到所在本地文件夹的位置
在这里插入图片描述
pandas的DataFrame教程很多内容也很长,这里我记住他的主要用法:
pd.DataFrame(内容,index,columns),即一张表主要就是内容、行和列,注意这里的index是行,columns是列

同理,我们再试着来下载保存波士顿房价:

from sklearn.datasets import load_boston
load_boston = load_boston()
import pandas as pd
# print(load_boston)

col = load_boston["feature_names"]
m1 = pd.DataFrame(load_boston.data,index=range(506),columns=col)
m2 = pd.DataFrame(load_boston.target,index=range(506),columns=["price"])

m3 = m1.join(m2,how="outer")
m3.to_excel("./load_boston.xls")

成功下载保存
在这里插入图片描述

在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

### sklearn鸢尾花数据集默认保存路径 在使用 `sklearn` 加载鸢尾花数据集时,该数据集实际上是存储在内存中的 NumPy 数组,并不会直接保存本地文件系统中[^4]。这意味着,当你通过 `sklearn.datasets.load_iris()` 方法加载数据时,数据是以字典形式返回的,包含特征值 (`data`) 和目标值 (`target`) 等信息。 然而,如果需要将数据保存本地以便后续使用,可以手动将数据导出为 CSV 或其他格式。以下是一个示例代码,展示如何将鸢尾花数据集保存为 CSV 文件: ```python from sklearn.datasets import load_iris import pandas as pd # 加载鸢尾花数据集 iris = load_iris() # 将数据转换为 Pandas DataFrame df = pd.DataFrame(data=iris.data, columns=iris.feature_names) # 添加目标列 df['target'] = iris.target # 保存为 CSV 文件 df.to_csv('iris_dataset.csv', index=False) ``` 如果用户提到的是 Seaborn 的 `load_dataset` 方法,则其数据会缓存到指定目录中。例如,在引用[1]中提到的 `sns.load_dataset('iris')` 方法,默认会将数据下载并缓存到用户的主目录下的 `.cache/seaborn/` 文件夹中[^5]。 对于 `sklearn` 数据集,若需明确保存路径,可以通过以下方式手动指定路径并保存数据集: ```python import os from sklearn.datasets import load_iris import joblib # 加载鸢尾花数据集 iris = load_iris() # 指定保存路径 save_path = os.path.expanduser("~/iris_dataset.joblib") # 保存数据集 joblib.dump(iris, save_path) ``` 上述代码会将数据集以二进制格式保存到用户主目录下名为 `iris_dataset.joblib` 的文件中。 ### 注意事项 - `sklearn` 的数据集加载器不会自动将数据保存本地文件系统。 - 如果需要持久化存储,必须手动将数据保存为 CSV、JSON 或其他格式。 - 使用 `Seaborn` 的 `load_dataset` 方法时,数据会被缓存到特定目录中(如 `.cache/seaborn/`)。
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值