1.使用Weka中的一个图形用户界面
这假定您已下载的Weka存档已被解压缩到包含此README的目录中,并且您尚未使用自动安装程序(例如,为Windows提供的安装程序)。
Weka 3.7需要Java 1.6或更高版本。根据您的平台,您可以只需双击weka.jar图标即可运行Weka的图形用户界面。否则,从命令行(假设您在包含weka.jar的目录中),键入
java -jar weka.jar
或者如果您使用的是Windows,键入
javaw -jar weka.jar
注意:使用“-jar”会覆盖CLASSPATH变量!如果需要使用CLASSPATH中指定的类,请改用以下命令:
java -classpath $ CLASSPATH:weka.jar weka.gui.GUIChooser
或者如果您使用的是Windows,请使用
javaw -classpath“%CLASSPATH%; weka.jar” weka.gui.GUIChooser
这将启动一个图形用户界面(weka.gui.GUIChooser),您可以从中选择各种界面,如SimpleCLI界面或更复杂的Explorer,Experimenter和Knowledge Flow界面。
SimpleCLI就像一个简单的命令shell。
Explorer目前是使用Weka进行数据分析的主要界面。
Experimenter可用于比较不同学习算法在各种数据集中的表现。
Knowledge Flow提供了一个基于组件的Explorer界面替代方案。
可以与Weka一起使用的示例数据集 位于名为“data”的子目录中,该目录应与此README文件位于同一目录中。
Weka用户界面提供了广泛的内置帮助工具(工具提示等)。可以在ExplorerGuide.pdf中找到Explorer的文档(也与此README位于同一目录中)。
您还可以从weka.jar中启动GUI“Main”类:
java -classpath weka.jar:$CLASSPATH weka.gui.Main
或者如果您使用的是Windows,请使用
javaw -classpath weka.jar:$CLASSPATH weka.gui.Main
2. Weka包和包管理器
Weka 3.7.2许多Weka算法和工具都是从主要的Weka发行版中提取出来的,并封装在单独的可下载软件包中。这些可以从Sourceforge上的Weka项目获得并手动安装,或者Weka的内置包管理器可用于处理安装/删除包。有一个命令行和GUI包管理器,可用于浏览和安装包。包管理器负责解决依赖关系并检查冲突。
GUI包管理器可以在GUIChooser的“工具”菜单中找到。有关如何使用包管理系统的详细信息,请参阅Weka手册。
3. Weka数据格式(ARFF)
WEKA的数据集采用ARFF格式。 (WEKA中包含几个可以将其他文件格式转换为ARFF的转换器。如果它不能将给定文件识别为ARFF文件,Weka Explorer将自动使用这些转换器。)ARFF文件的示例可以在“data”子目录。
以下是文件格式的简短描述。 Weka网页提供了更完整的描述。
数据集必须以其名称声明开头:
@relation name
后跟数据集中所有属性的列表(包括class属性)。这些声明具有
@attribute attribute_name specification
形式,如果属性是名义的,则规范包含大括号中可能的属性值的列表:
@attribute nominal_attribute {first_value, second_value, third_value}
如果属性是数字,则规范将替换为关键字numeric :(整数值在WEKA中被视为实数。)
@attribute numeric_attribute numeric
除了这两种类型的属性外,还存在一个字符串属性类型。此属性提供了为数据集中的每个实例存储注释或ID字段的可能性:
@attribute string_attribute string
在属性声明之后,实际数据由
@data
标记引入,后面跟着所有的列表实例。实例以逗号分隔格式列出,问号表示缺失值。
注释是以%开头的行,Weka会忽略它们。