4.1基本流程
决策树是一类常见的机器学习方法,又称“判别树”,决策过程最终结论对应了我们所希望的判定结果。
一棵决策树 { 一个根结点 包含样本全集 若干个内部结点 对应属性测试,每个结点包含的样本集合根据属性测试结果划分到子结点中 若干个叶结点 对应决策结果 一棵决策树 \begin{cases} 一个根结点 &包含样本全集 \\ 若干个内部结点 & 对应属性测试,每个结点包含的样本集合根据属性测试结果划分到子结点中 \\ 若干个叶结点 & 对应决策结果 \\ \end{cases} 一棵决策树⎩ ⎨ ⎧一个根结点若干个内部结点若干个叶结点包含样本全集对应属性测试,每个结点包含的样本集合根据属性测试结果划分到子结点中对应决策结果
决策树的生成是一个递归过程
有三种情况会递归返回
4.2划分选择
关键在于如何选择最优划分属性
我们希望决策树分支结点所包含的样本尽可能属同一类别,即“纯度”(purity)越来越高
4.2.1信息增益
“信息熵”(information entropy)是度量样本纯度的一种指标
学习一棵能预测是不是好瓜的决策树。 ∣ y ∣ = 2 |y|=2 ∣