不确定性下的决策树学习方法解析
在数据处理和机器学习领域,决策树是一种强大的工具。然而,当面对连续值属性和模糊数据时,传统的决策树算法需要进行相应的扩展。本文将详细介绍处理连续值属性的决策树算法、模糊决策树算法以及基于模糊粗糙集技术的模糊决策树算法。
1. 连续值属性决策树
传统的 ID3 算法可以通过离散化的思想扩展到处理连续值属性的数据集。下面将介绍相关的概念和算法。
1.1 基本概念
- 分割点(Cut - point) :对于连续值属性 A,给定阈值 T,满足 A ≤ T 的实例分配到左分支,满足 A > T 的实例分配到右分支,T 称为分割点。对于有 N 个实例的数据集 S,连续值属性 A 的分割点通常是将实例按属性 A 的值升序排序后,相邻值对的中点,共有 N - 1 个分割点。
- 不平衡分割点和平衡分割点 :如果分割点对应的一对实例属于不同类别,则该分割点为不平衡分割点;否则为平衡分割点。
- 基尼指数(Gini Index) :
- 数据集 S 的基尼指数定义为 (Gini(S)=1 - \sum_{i = 1}^{m}p_{i}^{2}),其中 (p_{i}=\frac{|C_{i}|}{|S|}),(|C_{i}|) 是类别 (C_{i}) 的实例数量,(|S|) 是数据集 S 的实例总数。
- 给定数据集 S、连续值属性 A 和分割点 T,分割诱导的基尼指数定义为 (Gini(A, T, S)=\frac{|S_{
超级会员免费看
订阅专栏 解锁全文
972

被折叠的 条评论
为什么被折叠?



