9 Decision Tree
9.1 Decision Tree Hypothesis
本节主要讲述了决策树的两种解释,一种是决策树是由叶子节点和路径组成的,当选择叶子节点对应的路径时采用对应的叶子节点结果;另一种观点是由分叉的树递归组成,当选择某一分支时将采用分支对应的子树的演算法结果。
决策树的优点在于可解释性强,高效。缺点是理论保证不足,并且算法多样。
9.2 Decision Tree Algoithm
决策树主要有4个关键部分:
(1)分支分成几支?
(2)该怎么分支?
(3)什么时候停止?
(4)最终回传的叶子节点的base hypothesis是什么?
以下介绍CART的4个关键:
(1)分成2支。
(2)用decision stump分支。
(3)通过加权不纯度衡量什么时候停止,其中权重是所分类数据大小:
当值域是连续时,不纯度为方差;当值域是离散时,不纯度为基尼系数。有时候可能会使用分类错误。
(4)最终回传一个常数。
9.3 Decision Tree Heuristics in CART
9.3.1 多分类
需要改变的地方有两处,第一是回传的时候的值,第二是不纯度的计算。
9.3.2 过拟合
可以每次在剩余的叶子中减掉一个可以得到更好的Ein的叶子,直到剪到只有一个叶子,最后通过下式来选择:
9.3.3 类别特征
如果遇到类别特征,可以使用decision subset来代替decision stump:
其中 S 是部分类别的集合。
9.3.4 数值缺失
可以考虑填充缺失数据,或者在建立树时同时选择替代特征,替代特征的分类结果必须要和原特征类似。
9.4 Decision Tree in Action
展示了决策树的判断过程。