本次比赛第一赛季我们团队大赛先用weka对数据进行预处理。weka是一款开源的,免费的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。我非常喜欢这个软件,很容易上手,功能很强大,也不需要很多的编程,图形化做的比较好。打算在数据预处理上主要使用weka。
weka下载安装
weka软件下载网址,根据自己的操作系统选择Windows还是Mac,32位还是64位,强烈推荐装64位系统,因为赛题数据较大,约500M,如果想一次性读取的话,大概需要3.5G内存,而32位系统最大的物理寻址内存也就是4G,再加上系统其它占用,无法一次性导入这么大的数据。当然你也可以分批次导入,这样麻烦一些,需要自己研究一下。
软件下载
在此选择版本的时候需要注意一下,分两种:stable version和developer version,两者的区别是后者多了个package manager,可以安装最新的包;还有就是根据你电脑是否有JAVA 虚拟机选择版本,如果你电脑本身没有装过JAVA虚拟机,就要选择如下红色方框内版本:
如果电脑里已经装过了JAVA虚拟机,选择红色方框下面那个下载安装即可。下载好后安装基本和普通软件安装方法一致。
设置环境变量
安装后需要设置一下环境变量:
首先你应该知道你jdk装在哪了!
我的电脑>右键>属性>高级>环境变量,在系统变量下方 点新建。
1.新建JAVA_HOME
变量名:JAVA_HOME
变量值:jdk的安装路径至根目录,比如说你装到了d盘,文件夹的名字是jdk1.7.5 那么这里你就粘贴D:\jd