哈工大机器学习Week2知识点总结

决策树(cont)

互信息与决策树

由随机变量 X X X Y Y Y之间互信息的计算公式: I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) I(X;Y) = H(X) - H(X|Y) I(X;Y)=H(X)H(XY)表示随机变量Y含有X的多少信息。

  • H ( X ∣ Y ) H(X|Y) H(XY)较小,则说明给定 Y Y Y X X X的信息量减少。
    • 在决策树中 Y Y Y表示某一特定的属性。 Y = y i Y = y_i Y=yi表示该属性的取值为 y i y_i yi
    • 反应在决策树中表现为由随机变量属性 Y Y Y的取值划分 X X X,得到的样本的纯度提升,即信息量减少。这正是我们的目标。
  • 于是在划分阶段,每次只需要选择 H ( X ∣ Y ) H(X|Y) H(XY)较小的即I(X;Y)较大的对应的属性。在决策树中,使用样本的频率代替概率即可(称为样本熵)即用样本的类别频率近似随机变量 X X X的概率分布,用该特定属性每个取值的样本姘居近似随机变量 Y Y Y的概率分布。

熵的计算例子

在这里插入图片描述

信息增益

由第一部分的分析,如果选择属性 A A A进行切分(即 Y Y Y的分布对应于属性A的每一取值的频率,属性A的取值一共有k个),信息增益的计算公式为: G a i n A = E n t r o p y ( p ) − ∑ i = 1 k n i n E n t r o p y ( i ) Gain_{A} = Entropy(p) - \sum_{i = 1}^{k}\frac{n_i}{n}Entropy(i) GainA=Entropy(p)i=1knniEntropy(i)
其中 E n t r o p y ( p ) Entropy(p) Entropy(p)表示所有样本的熵, E n t r o p y ( i ) Entropy(i) Entropy(i)表示划分后第 i i i个属性取值下所有样本的熵。

  • 缺点:倾向于选择切分分支较多的属性。
  • 计算实例:
    在这里插入图片描述

停止准则

  • 当一个结点上所有样本属于同一个类别,停止扩展
  • 当一个结点上所有样本具有相似的属性值,停止扩展
  • 提早结束

问题

  • 欠拟合(underfitting)和过拟合(Overfitting)(结点数过多)
    在这里插入图片描述在这里插入图片描述- 防止Overfitting的准则
    • Given two models of similar generalization errors, one
      should prefer the simpler model over the more complex
      model
    • For complex models, there is a greater chance that it was
      fitted accidentally by errors in data

假设空间

假设有n个布尔属性,则针对这些属性决策树的假设空间如何?

  • n个布尔属性的真值表一共有 2 n 2^n 2n行(因为每个属性均有2个取值T或F)
  • 每一行共有2种取值即真假
  • 因此共有
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值