weka中的arff数据文件
1.ARFF(Attribute-Relation File Format)文件时一个ASCII文件,用于描述一组共享某些属性的实例。
主要是两部分:Header information and Data information
1>Relation information:
格式: @ralation <relation-name> 比如说:
@RELATION iris
2>Header information: name of the ralation, a list of the attributes and their types.
格式:@attribute <attribute-name> <datatype>
其中,需要注意的是,attribute-name必须以字母开头,weka支持的datatype包括:numericnumeric(integer) string 等
@ATTRIBUTE sepallength numeric
3>Data informaion
@DATA
5.1 3.5,Iris-setosa
注意,如果缺失某个属性数据,用问号替代,比如:
4.4,?,5.7,Iris-setosa
2. 稀疏ARFF文件存储
稀疏ARFF文件的存储格式其实和ARFF文件正常存储差不多,但是值为0的数据就不在显示表示。稀疏ARFF文件有相同的头文件,但是数据部分不相同。两种存储格式如下所示:
正常:
@data
0,X,0,Y,“class A”
0,0,W,0,“class B”
稀疏的存储形式
{1 X,3 Y, 4 "class A"}
{2 W, 4 "class B"}
3. ARFF 文件中的实例权重表示
正常形式的:
@data
0,x,0,Y,"class A",{5}
稀疏的存储形式:
@data
{1 X,3 Y,4 "class A"},{5}