学习机器学习中常见的数据集及自定义数据集

本文介绍了机器学习中常用的鸢尾花、波士顿房价和乳腺癌分类数据集,以及如何通过sklearn库导入和预处理。还讲解了自定义分类和回归数据集的生成方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在学习机器学习中,会用到不少的数据集,这里给出几个较为常见的数据集,以及他们的导入方式,以便于大家学习。

鸢尾花

首先介绍鸢尾花数据集,鸢尾花数据集是一个典型的用于分类的数据集,且是多分类的数据集。在这个数据集中,所有的鸢尾花可以被根据各自特征的不同被分为三大类:分别为山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)。每一个鸢尾花都有四个特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度。我们的主要任务就是依据这四个特征值,识别出不同的鸢尾花属于哪一类别。

导入鸢尾花的API如下:from sklearn.datasets import load_iris

# 鸢尾花数据集
from sklearn.datasets import load_iris
iris=load_iris()
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_
state= 22, test_size=0.2)

datasets是sklearn的一个库,里面存放着不同的数据集,供我们下载训练。本专栏所使用的数据集基本都从sklearn.datasets中下载。代码中的第三行:运用到数据集分割函数:train_test_split()

波士顿房价数据集

该数据集是用于训练回归模型的典型数据集,该数据集的每一个记录有14个特征值,最终目的为通过训练集的学习,预测出波士顿地区的房价中位数,输出类型为连续型数值输出,故显然为回归任务。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值