机器学习之 weka学习(四)

本文介绍如何使用Weka软件进行逻辑回归分类,并详细解释了10折交叉验证的过程及其重要性。此外,还展示了如何利用J48(C4.5)算法进行分类任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文转自: 

http://blog.youkuaiyun.com/lantian0802/article/details/8875874

http://blog.youkuaiyun.com/lkj345/article/details/50152055



点击最上方的Classify按钮,选择Logistic(逻辑回归)分类方法,在Test options中选择Percentage split,66%。这样weka自动将大约2/3的数据作为训练集,大约1/3的数据作为测试集,采用逻辑回归作为分类方法,结果如下图。


 另外也可以选择Cross-validation,Folds设置为10,这是10-fold的交叉验证,首先随机将所有数据随机分成10份,将其中9份作为训练集,另外1份作为测试集,按照逻辑回归进行10次分类实验,最终保证每个数据都能作为测试集并且仅有一次,将10次分类结果综合起来得到最终的分类结果 

为了保证生成的模型的准确性而不至于出现拟合的现象,我们有必要采用10折交叉验证来选择和评估模型。

10 折交叉验证:英文名叫做10-fold corss –validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得到相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精确读的估计,一般还需要进行多次10折交叉验证。



- Correctly Classified Instances表示分类正确率 
- Incorrectly Classified Instances表示分类错误率 
- TP Rate是True Positive Rate的缩写,表示本来是正样本,结果也被分类成正样本的比例 
- FP Rate是False Positive Rate的缩写,表示本来是负样本,结果却被分类成了正样本的比例 
- Precision表示查准率,公式为Precision =  TPTP+FP ,含义是被分类为正样本中真正的正样本的比例 
- Recall表示查全率,公式为Recall =  TPTP+FN ,FN Rate是False Negative Rate的缩写,表示本来是正样本,结果却被分类成负样本的比例,所以Recall的含义是真正的正样本占整个数据集(分类正确的和错误的)中正样本的比例 
- F-Measure的公式是 2PRP+R ,是很常用的判断分类效果好坏的指标 


weka和matlab完成完整分类实验

http://blog.youkuaiyun.com/lkj345/article/details/50152055


WEKA的应用之 J48(C4.5)

http://blog.youkuaiyun.com/omenglishuixiang1234/article/details/48343987





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值