(转载)基于sklearn的iris数据集及简介

本文详细介绍了Iris数据集,包括其来源、特点及如何利用Python的scikit-learn库进行数据加载与初步分析。Iris数据集是机器学习领域常用的分类任务数据,包含150个样本,分为3类,每类50个数据,通过花萼和花瓣的长度与宽度等4个特征,用于鸢尾花的品种分类。
部署运行你感兴趣的模型镜像

(一)iris数据集简介

Iris数据集是机器学习任务中常用的分类实验数据集,由Fisher在1936收集整理。Iris中文名是安德森鸢尾花卉数据集,英文全称是Anderson’s Iris data set,是一类多重变量分析的数据集。Iris一共包含150个样本,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。

通俗地说,iris数据集是用来给莺尾花做分类的数据集,每个样本包含了花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征(下表中的前4列),我们需要建立一个分类器,该分类器可通过样本的四个特征来来判断样本属于山鸢尾(Setosa)、变色鸢尾(Versicolour)还是维吉尼亚鸢尾(Virginica)中的哪一个,即机器学习中的分类问题。

iris的每个样本都包含了品种信息,即目标属性(第5列,也叫target或label)。

样本局部截图:


将样本中的4个特征两两组合(任选2个特征分别作为横轴和纵轴,用不同的颜色标记不同品种的花),可以构建12种组合(其实只有6种,另外6种与之对称),如图所示:


(二)基于ski-kit的iris数据集

python的数据挖掘/机器学习库scikit已经内置了iris数据集,如果运行环境并没有安装sklearn,可通过pip install sklearn命令进行安装。

这里使用pychram环境来查看sklearn内置的iris数据集,如下所示:

import sklearn

if __name__ == '__main__':
    iris = sklearn.datasets.load_iris()

    # data对应了样本的4个特征,150行4列
    print('>> shape of data:')
    print(iris.data.shape)

    # 显示样本特征的前5行
    print('>> line top 5:')
    print(iris.data[:5])

    # target对应了样本的类别(目标属性),150行1列
    print('>> shape of target:')
    print(iris.target.shape)

    # 显示所有样本的目标属性
    print('>> show target of data:')
    print(iris.target)

每条命令的运行结果如下:


其中,iris.target用0、1和2三个整数分别代表了花的三个品种
关于分类,我们使用了Iris数据集,这个scikit-learn自带了,在pkgs目录下搜索:iris.csv即可。

from sklearn.datasets import load_iris
iris = load_iris()

您可能感兴趣的与本文相关的镜像

Python3.9

Python3.9

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

### 关于 SklearnIris 鸢尾花数据集 #### 数据集简介 Iris 数据集是一个经典的多分类数据集,广泛用于模式识别和机器学习领域。该数据集由 Fisher 在 1936 年整理并发布,包含了三种不同种类的鸢尾花卉(Setosa、Versicolour 和 Virginica),每种各有 50 个样本[^3]。 #### 加载数据集的方法 为了方便开发者快速上手实践,在 `sklearn` 库中已经内置了此数据集,可以通过如下方式轻松导入: ```python from sklearn.datasets import load_iris iris = load_iris() ``` 这段代码会将整个 Iris 数据集加载到名为 `iris` 的变量中,它实际上是一个类似于字典的对象,其中存储着有关这个数据集的各种信息[^2]。 #### 探索数据集结构 一旦成功加载了数据集之后,就可以通过访问其不同的键来查看具体内容: - **data**: 包含所有样本特征的一个 NumPy 数组; - **target**: 表示每个样本所属类别的数组; - **target_names**: 类别名称对应的字符串列表; - **feature_names**: 各个特征的名字; - **DESCR**: 描述数据集详情的文字说明; 具体可以执行以下命令来进行初步了解: ```python print(iris.DESCR) # 输出完整的数据集描述文档 print(iris.data.shape) # 显示 (150, 4),意味着共有 150 条记录以及 4 种测量指标作为输入特性 print(iris.target) # 展现类别标签分布情况 print(iris.target_names) # 打印三个可能的目标值 ['setosa' 'versicolor' 'virginica'] print(iris.feature_names) # 获取四个维度的具体含义 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] ``` 上述代码片段可以帮助使用者全面掌握 Iris 数据集中所包含的各项要素及其基本统计概况[^4]。 #### 特征解释 对于每一朵花来说,都测定了四方面的数值: - 萼片长度(sepal length) - 萼片宽度(sepal width) - 宠物长度(petal length) - 宠物宽度(petal width) 这些度量单位均为厘米(cm)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值