模糊规则系统在不平衡数据集分类中的有效性研究
在机器学习领域,处理不平衡数据集是一个具有挑战性的问题。本文将深入探讨一种分层模糊规则分类系统(HFRBCS)在不平衡数据集上的性能,并与其他模糊规则分类系统(FRBCSs)和著名的 C4.5 算法进行比较。
1. 研究方法
- 五折交叉验证 :采用五折交叉验证方法,将数据集划分为五个部分,其中 80%用于训练,20%用于测试,五个测试数据集构成整个数据集,并考虑每个数据集五个分区的平均结果。
- 统计测试 :
- 非参数检验 :由于参数检验的初始条件可能无法满足,导致统计分析失去可信度,因此使用非参数检验。
- Wilcoxon 符号秩检验 :用于对两个算法进行成对比较。
- Iman - Davenport 检验 :用于检测一组结果之间的统计差异。
- Holm 事后检验 :用于找出在 n×1 比较中哪些算法具有显著差异。
- 平均排名 :根据每个算法在每个数据集上的性能分配排名,最终计算所有排名的平均值,以直观展示算法的优劣。
这些测试在机器学习领域被广泛推荐,感兴趣的读者可以在网站 http://sci2s.ugr.es/sicidm/ 上找到更多相关信息和应用软件。 </