前言
最近做实验需要用到weka
这个工具,不是机器学习出生,懵懵懂懂啊。这个帖子不是系统地整理,只是简单地记录我对这个工具熟悉的每一步,甚至还没有逻辑??。
记录
目前只用到explorer
这个界面,里面包含了分类器、聚类、特征选择等。
在Classifier
部分,选择了算法之后,还要选择Test Options
这部分。这部分的选项意思是:你要通过什么样的方式来测试你训练出来的模型。
-
Using training set
,就是说使用你导入的所有的数据(导入是在preprocess
界面导入的)来测试模型。这里说一下,训练模型是通过导入的所有数据训练的,这里选择测试数据集就只是选择测试集而已。如下图所示:
显示说是使用了
full training set
训练得到的模型,模型训练总共花了48.58
秒。Supplied test set
是说额外导入一个测试集,在这个测试集上测试模型cross validation
,这个是我最疑惑的,网上查交叉验证是什么,都是直接说分成k
份,1份做测试,剩下做训练。但我还是不明白这个东西用在这里是干嘛。后来查着查着才知道,这里说的交叉验证是说(假定是10折),进行10次测试,将10次测试的准确率作为模型最终的准确率。对,就是这么简单。然后十折交叉验证可以用来调参,和GridSearchCV
结合在一起(搜索关键词十折交叉验证调参)