Weka是一款开源的Java数据挖掘平台,它诞生于 University of Waikato(新西兰).其官网上极其详尽的介绍说明,同时作者还提供了在线视频教程,优酷上已经有中文字幕版了,可谓是业界良心。
在课程的第一课中,作者对用现实例子对数据挖掘的应用进行讲解,并提到机器学习与数据挖掘的关系。他认为机器学习侧重的是算法,而数据挖掘侧重的是应用。我自认为还研究算法的能力还不够,先从应用来入手吧。
Weka的安装之后,里面有一个data的文件夹,它里面放着一些作为sample的数据供参考,数据文件的后缀都是.arff。
根据视频的第一课,我们从Exploer进入,打开data中的weather.nominal数据。
可以从界面看到这组数据一共有14条记录,5个属性。通过点击选取不同的属性可以看到各个属性值在记录中出现的次数。右下角的图表中蓝色表示play属性为yes,红色表示no.通过对比我们可以比较各个属性与play属性之间的关系。
这一课初步展现出Weka对数据的分析与表现能力。
我接下来想知道的是,1、如何规范要处理的数据;2、如何进一步分析数据;3、如何利用算法分析。