第四章
1. 分类技术
- Decision Tree based Methods
- Rule-based Methods
- Memory based reasoning
- Neural Networks
- Naïve Bayes and Bayesian Belief Networks
- Support Vector Machines
2. 如何建立决策树
- Hunt算法
- 定义:
- 如果Dt中所有记录都属于同一个类y_t,则t是叶节点,用y_t标记
- 如果Dt中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集,递归地调用该算法。
- 对于hunt算法有两种特殊的cases需要额外处理
- 一些孩子节点是空的
- 与Dt相关联的所有记录都具有相同的属性值(目标属性除外)
- 方法:贪心算法
- 设计问题:
- 如何分裂训练记录
- 条件(依赖于属性类型)
- 二元or多路划分
- 如何停止分裂过程
- 如何分裂训练记录
- 定义:
- CART
- ID3
- SLIQ,SPRINT
3. 不同类型的属性指定测试条件的方法
- 标称属性:
- 多路划分
- 二元划分(通过属性值分组)
- 序数属性: