机器学习中的决策树与归纳逻辑编程
1. 决策树学习中的表征方面
决策树学习是机器学习中的重要方法,但在实际应用中面临一些挑战,下面从连续属性、未知属性值和分裂策略三个方面进行介绍。
- 连续属性处理 :Quinlan 最初的 ID3 算法只能处理离散值属性,但很多问题领域存在连续描述符,如身高、体重等。ID3 算法未利用属性值有序的隐含信息,因此 C4.5 对其进行了扩展以处理连续属性。Quinlan 的模型树也能生成连续输出函数,其基本思想是在值范围上找到一个二元分割。具体操作如下:
1. 考虑实际给定示例中出现的所有值 (v_1, \cdots, v_m),并按值排序。
2. 对于所有 (i \in {1, \cdots, m - 1}),选择 (v_i) 和 (v_{i + 1}) 之间的阈值进行所有可能的分割。
3. 选择最佳分割。
- 未知属性值处理 :在许多应用中,示例可能未完全描述,部分属性值缺失,原因可能是测量缺失、报告错误或不完整等。常见的处理方法是使用有指定值的给定示例来估计缺失值,如 ASSISTANT 和 C4.5 都采用了这种方法。同时,缺失值的原因可分为以下几类,这些原因在树的生长或概念学习中可能很有价值:
- 不重要(不关心)。
- 未测量。
- 不适用(如“你怀孕了吗”对男性患者不适用)。
- 分裂策略 :当属性有多个值时,将值集仅划分为两个子集可能仍然有用,这样能保证决策树只包含二元分割。但简单实现该想法可能需要 (2^{n - 1}) 次评估((n) 为属性值的数量)。Breiman 等人证
超级会员免费看
订阅专栏 解锁全文

2万+

被折叠的 条评论
为什么被折叠?



