机器学习经典数据集解析：Fisher的鸢尾花数据集详解

贡秀丽

于 2025-06-09 09:21:51 发布

阅读量310

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00427/article/details/148527355

机器学习经典数据集解析：Fisher的鸢尾花数据集详解

machine-learning-book Code Repository for Machine Learning with PyTorch and Scikit-Learn 项目地址: https://gitcode.com/gh_mirrors/ma/machine-learning-book

数据集概述

鸢尾花(Iris)数据集是机器学习领域最著名、最经典的数据集之一，由统计学家R.A. Fisher于1936年在其开创性论文中首次使用。该数据集包含三种鸢尾花(Setosa、Versicolour和Virginica)各50个样本，共150个样本，每个样本测量了4个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。

数据集历史背景

创建者：R.A. Fisher，现代统计学奠基人之一
捐赠者：Michael M.
创建时间：1988年7月

Fisher在1936年的论文《The use of multiple measurements in taxonomic problems》中首次使用该数据集，这篇论文至今仍被广泛引用。数据集后来成为模式识别和机器学习领域的标准测试数据集。

数据集特点

基本统计信息

样本数量：150个(每类50个)
特征数量：4个数值型特征+1个类别标签
缺失值：无

特征描述

花萼长度(sepal length)：单位厘米
花萼宽度(sepal width)：单位厘米
花瓣长度(petal length)：单位厘米
花瓣宽度(petal width)：单位厘米
类别：
- Iris Setosa
- Iris Versicolour
- Iris Virginica

统计摘要

| 特征 | 最小值 | 最大值 | 均值 | 标准差 | 类别相关性 | |------|--------|--------|------|--------|------------| | 花萼长度 | 4.3 | 7.9 | 5.84 | 0.83 | 0.7826 | | 花萼宽度 | 2.0 | 4.4 | 3.05 | 0.43 | -0.4194 |
| 花瓣长度 | 1.0 | 6.9 | 3.76 | 1.76 | 0.9490 (高) | | 花瓣宽度 | 0.1 | 2.5 | 1.20 | 0.76 | 0.9565 (高) |