医疗数据挖掘中的可读规则归纳算法研究
1. 规则归纳算法概述
在医疗数据挖掘领域,为了研究规则归纳算法的性能,采用了 Waikato 环境进行知识分析(WEKA)这一开源软件环境。WEKA 3.5.3 版本包含了一系列用于数据挖掘任务的机器学习算法。在本次研究中,仅关注规则归纳方法,因此只选用了基于树和规则的算法,因为决策树等价于一组规则。
1.1 WEKA 分类算法
WEKA 系统中的分类算法可分为规则归纳和决策树算法两类。规则归纳算法以一组规则的形式生成模型,规则采用标准的“IF…THEN”形式;决策树算法则通过构建决策树来生成模型,其中每个内部节点是一个特征或属性,叶节点是类输出。
以下是本次研究选择的 6 种规则算法和 5 种决策树算法:
| 编号 | 算法名称 | 缩写 | 分类器类型 |
| ---- | ---- | ---- | ---- |
| 1 | OneR | OneR | 规则 |
| 2 | Ridor | Ridor | 规则 |
| 3 | PART | PART | 规则 |
| 4 | JRip | JRip | 规则 |
| 5 | DecisionTable | DT | 规则 |
| 6 | ConjunctiveRule | CR | 规则 |
| 7 | J48 (C4.5) | J48 | 树 |
| 8 | ADTree | ADT | 树 |
| 9 | DecisionStump | DS | 树 |
| 10 | RandomTree | RT | 树 |
| 11 | R