1. 算法流程及说明
首先给出决策树计算流程,该图来自于周志华老师的《机器学习》(经典教材)
书中提到,有三种情形会导致递归返回:
- 1 当前节点包含的样本属于同一类别;
- 2 当前属性集为空或者所有样本在所有属性上的取值相同
- 3 当前节点包含的样本集合为空
并且强调了:
- 第2种情形将该节点中含样本最多的类别作为该节点的类别
- 第3种情形将父节点中含样本最多的类别作为该节点的类别
个人认为这两点的强调很重要,否则在递归计算过程中会出错。
理论知识会再写一篇文章进行阐述,本文接下来重点给出当选择标准为信息增益
时,决策树的生成过程,剪枝的部分会在另一篇文章阐述。(由于整个计算过程是采用onenote记的笔记,故在这里给出整个笔记的截图)