数据分类方法综合解析
1. 关联分类算法对比
关联分类为分类方案提供了新的选择,它基于数据中频繁出现的属性 - 值对的组合来构建规则。下面为大家介绍几种关联分类算法:
- CBA与CMAR :CBA和CMAR采用频繁项集挖掘方法生成候选关联规则,这些规则包含满足最小支持度的所有属性 - 值对(项)的组合。之后对这些规则进行筛选,选取一个子集来代表分类器。实验表明,与CBA相比,CMAR的平均准确率略高,且在运行时间、可扩展性和内存使用方面更高效。
- CPAR :CPAR采用不同的规则生成方法,基于一种名为FOIL的分类规则生成算法。FOIL构建规则以区分正元组和负元组,对于多类问题,会对每个类分别应用FOIL。每次生成规则时,CPAR允许被覆盖的元组仍参与后续考虑,但会降低其权重。在分类时,若有多个规则满足新元组X,CPAR会将规则按类分组,使用每组中最佳的k条规则基于预期准确率来预测X的类标签,避免了低排名规则的影响。CPAR在许多数据集上的准确率与CMAR相近,但由于生成的规则远少于CMAR,在处理大量训练数据时效率更高。
| 算法名称 | 规则生成方法 | 分类策略 | 准确率 | 效率 |
|---|---|---|---|---|
| CBA | 频繁项集挖掘 | - | - | 相对较低 | </
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



