【摘要】常用的知名uci数据集主要包括四种:Iris,Wine,Soybean,Zoo,已知这四类数据集聚类结果可靠,并取得一致见意,适合做聚类分析的基准数据集。本文简要介绍这四类数据集。
首先,简绍一下uci数据集,百度百科是这么简绍的:UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库,这个数据库目前共有335个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。
uci官网地址:
Machine Learning Repository(机器学习库)地址:
http://archive.ics.uci.edu/ml/index.html
一、Iris数据集
Iris数据集,中文叫鸢【yuān】尾数据集,Iris包含3个类,每个类中有50个元素,每一类各有50个元素,每个元素有5个属性,每一类代表一种类型的鸢尾花,150个样本在3个类簇中分布均匀;其中,一类与另外两类线性可分,另外两类有部分重叠。
注:5个属性分别是:
花萼长度、花萼宽度、花瓣长度、花瓣宽度、鸢尾种类
Iris数据集下载地址: