数据库的介绍:
数据库是加州大学欧文分校(UniversityofCaliforniaIrvine)提出的用于机器学习的数据库,这个数据库目前共有187个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。访问地址:http://archive.ics.uci.edu/ml/
- UCI上的“MultipleFeatures”数据库,这是一个手写数字识别问题,其中每个数字的数字化图像由6组共649个特征表示。
- UCI数据可以使用matlab的dlmread(或textread或者利用matlab的导入数据)读取,不过,需要先将不是数字的类别用数字,比如1/2/3等替换,否则读入不了数值,当字符了。
- UCI数据可以使用matlab的dlmread(或textread或者利用matlab的导入数据)读取,不过,需要先将不是数字的类别用数字,比如1/2/3等替换,否则读入不了数值,当字符了。
- 每个数据文件(.data)包含以“属性-值”对形式描述的很多个体样本的记录。对应的.info文件包含的大量的文档资料。(有些文件_generate_ databases;他们不包含*.data文件。)作为数据集和领域知识的补充,在utilities目录里包含了一些在使用这一数据集时的有用资料。
下面以UCI中IRIS为例介绍一下数据集:
ucidata\iris中有三个文件:
-
Index
-
iris.data
-
iris.names
index为文件夹目录,列出了本文件夹里的所有文件,如iris中index的内容如下:
-
Index of iris
-
18 Mar 1996 105