EXPLORE:一种新颖的决策树分类算法
在数据分类领域,决策树算法是一种常用且有效的工具。今天要介绍的 EXPLORE 算法,是对现有 See5 算法的改进,它在多个方面展现出独特的优势。
1. EXPLORE 算法的主要特性
EXPLORE 算法具有以下几个主要特性:
1. 对于数值属性,使用最佳窗口而非分割点将数据集划分为两个分区。
2. 对于分类属性,基于属性值而非属性的所有值来选择节点的测试属性。
3. 使用终极增益率(UGR)而非传统的增益率。
4. 可以使用最小窗口大小来确保结果的统计显著性。
5. 可以使用用户定义的终极增益率阈值作为终止条件。
下面我们详细解释这些特性。
2. 数值属性的分区方式
在测试数值属性作为节点的测试属性时,EXPLORE 基于数值属性的最佳窗口将数据集划分为两个分区,而不是像传统方法那样使用最佳分割点。
假设数值属性“Age”的定义域是 [20, 60],具体步骤如下:
1. 计算 LocalI(D[20]),即数据集中所有记录 Age = 20 时该段的熵:
- $LocalI(D[20]) = -\sum_{j = 1}^{c} p(D_{20}, j) \log_2(p(D_{20}, j))$
2. 计算加权熵 wLocalI(D[20]):
- $wLocalI(D[20]) = \frac{LocalI(D_{20})}{\log_2(\log_2|D_{20}|)}$
- 加权熵考虑了段的大小,以倾向于较大规模的模式,但为了减少大小对加权熵的影响,使用 $\lo
超级会员免费看
订阅专栏 解锁全文
28

被折叠的 条评论
为什么被折叠?



