4、机器学习中的决策树与归纳逻辑编程

最新推荐文章于 2025-11-24 11:51:29 发布

seed

最新推荐文章于 2025-11-24 11:51:29 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：科学数据挖掘与知识发现文章标签：决策树机器学习归纳逻辑编程

本文链接：https://blog.youkuaiyun.com/seed/article/details/154969677

科学数据挖掘与知识发现专栏收录该内容

43 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的决策树与归纳逻辑编程

1. 决策树学习中的表征方面

决策树学习是机器学习中的重要方法，但在实际应用中面临一些挑战，下面从连续属性、未知属性值和分裂策略三个方面进行介绍。
- 连续属性处理 ：Quinlan 最初的 ID3 算法只能处理离散值属性，但很多问题领域存在连续描述符，如身高、体重等。ID3 算法未利用属性值有序的隐含信息，因此 C4.5 对其进行了扩展以处理连续属性。Quinlan 的模型树也能生成连续输出函数，其基本思想是在值范围上找到一个二元分割。具体操作如下：
1. 考虑实际给定示例中出现的所有值 (v_1, \cdots, v_m)，并按值排序。
2. 对于所有 (i \in {1, \cdots, m - 1})，选择 (v_i) 和 (v_{i + 1}) 之间的阈值进行所有可能的分割。
3. 选择最佳分割。
- 未知属性值处理 ：在许多应用中，示例可能未完全描述，部分属性值缺失，原因可能是测量缺失、报告错误或不完整等。常见的处理方法是使用有指定值的给定示例来估计缺失值，如 ASSISTANT 和 C4.5 都采用了这种方法。同时，缺失值的原因可分为以下几类，这些原因在树的生长或概念学习中可能很有价值：
- 不重要（不关心）。
- 未测量。
- 不适用（如“你怀孕了吗”对男性患者不适用）。
- 分裂策略 ：当属性有多个值时，将值集仅划分为两个子集可能仍然有用，这样能保证决策树只包含二元分割。但简单实现该想法可能需要 (2^{n - 1}) 次评估（(n) 为属性值的数量）。Breiman 等人证

会员秒杀 ¥9.9 重磅福利

超级会员免费看