决策树相关研究:深度、误分类与模糊学习探索
1. 决策树深度与误分类关系研究
决策树在预测、知识表示和问题解决等方面应用广泛。为了让决策树更易理解,需减少节点数量;为了让决策树运行更快,需降低树的深度或平均深度;为了让决策树更准确,需减少误分类数量。
研究人员创建了基于动态规划的工具,可依次优化决策树的深度、平均深度、节点数量和误分类数量。在此基础上,又开发了新工具,用于研究决策树深度和误分类数量之间的关系。该工具能找出最多有 n 次误分类的决策树的最小深度,以及深度最多为 p 的所有决策树中的最小误分类数量。研究人员使用来自 UCI ML 仓库的三个决策表(淋巴造影、乳腺癌和井字棋)对该工具进行了测试。
1.1 基本概念
- 决策表 :研究中仅考虑具有离散属性的决策表,这些表不包含缺失值和重复行。决策表 T 中,f1, …, fm 是列名(条件属性);c1, …, cN 是非负整数,可解释为决策(决策属性 d 的值);bij 是非负整数,解释为条件属性的值。
- 属性集合 :用 E(T) 表示表 T 中各列包含不同值的属性集合。对于 fi ∈ E(T),E(T, fi) 是列 fi 中的值集合。
- 子表 :用 T(fi1, a1) … (fit, at) 表示表 T 的子表,该子表由 T 中与列 fi1, …, fit 相交处分别具有数字 a1, …, at 的行组成。这些非空表(包括表 T)称为表 T 的可分子表。
- 决策树 :决