决策树(cont)
互信息与决策树
由随机变量 X X X与 Y Y Y之间互信息的计算公式: I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y) = H(X) - H(X|Y) I(X;Y)=H(X)−H(X∣Y)表示随机变量Y含有X的多少信息。
- 若 H ( X ∣ Y ) H(X|Y) H(X∣Y)较小,则说明给定 Y Y Y时 X X X的信息量减少。
- 在决策树中 Y Y Y表示某一特定的属性。 Y = y i Y = y_i Y=yi表示该属性的取值为 y i y_i yi。
- 反应在决策树中表现为由随机变量属性 Y Y Y的取值划分 X X X,得到的样本的纯度提升,即信息量减少。这正是我们的目标。
- 于是在划分阶段,每次只需要选择 H ( X ∣ Y ) H(X|Y) H(X∣Y)较小的即I(X;Y)较大的对应的属性。在决策树中,使用样本的频率代替概率即可(称为样本熵)即用样本的类别频率近似随机变量 X X X的概率分布,用该特定属性每个取值的样本姘居近似随机变量 Y Y Y的概率分布。
熵的计算例子

信息增益
由第一部分的分析,如果选择属性 A A A进行切分(即 Y Y Y的分布对应于属性A的每一取值的频率,属性A的取值一共有k个),信息增益的计算公式为: G a i n A = E n t r o p y ( p ) − ∑ i = 1 k n i n E n t r o p y ( i ) Gain_{A} = Entropy(p) - \sum_{i = 1}^{k}\frac{n_i}{n}Entropy(i) GainA=Entropy(p)−i=1∑knniEntropy(i)
其中 E n t r o p y ( p ) Entropy(p) Entropy(p)表示所有样本的熵, E n t r o p y ( i ) Entropy(i) Entropy(i)表示划分后第 i i i个属性取值下所有样本的熵。
- 缺点:倾向于选择切分分支较多的属性。
- 计算实例:

停止准则
- 当一个结点上所有样本属于同一个类别,停止扩展
- 当一个结点上所有样本具有相似的属性值,停止扩展
- 提早结束
问题
- 欠拟合(underfitting)和过拟合(Overfitting)(结点数过多)

- 防止Overfitting的准则
- Given two models of similar generalization errors, one
should prefer the simpler model over the more complex
model - For complex models, there is a greater chance that it was
fitted accidentally by errors in data
- Given two models of similar generalization errors, one
假设空间
假设有n个布尔属性,则针对这些属性决策树的假设空间如何?
- n个布尔属性的真值表一共有 2 n 2^n 2n行(因为每个属性均有2个取值T或F)
- 每一行共有2种取值即真假
- 因此共有

最低0.47元/天 解锁文章
17万+

被折叠的 条评论
为什么被折叠?



