coursera机器学习技法笔记(9-11)——decision tree & Random forest & GBDT

9 Decision Tree
9.1 Decision Tree Hypothesis

  本节主要讲述了决策树的两种解释,一种是决策树是由叶子节点和路径组成的,当选择叶子节点对应的路径时采用对应的叶子节点结果;另一种观点是由分叉的树递归组成,当选择某一分支时将采用分支对应的子树的演算法结果。
  决策树的优点在于可解释性强,高效。缺点是理论保证不足,并且算法多样。

9.2 Decision Tree Algoithm

  决策树主要有4个关键部分:
  (1)分支分成几支?
  (2)该怎么分支?
  (3)什么时候停止?
  (4)最终回传的叶子节点的base hypothesis是什么?
  以下介绍CART的4个关键:
  (1)分成2支。
  (2)用decision stump分支。
  (3)通过加权不纯度衡量什么时候停止,其中权重是所分类数据大小:
  当值域是连续时,不纯度为方差;当值域是离散时,不纯度为基尼系数。有时候可能会使用分类错误。
  (4)最终回传一个常数。

9.3 Decision Tree Heuristics in CART

9.3.1 多分类
  需要改变的地方有两处,第一是回传的时候的值,第二是不纯度的计算。
9.3.2 过拟合
  可以每次在剩余的叶子中减掉一个可以得到更好的Ein的叶子,直到剪到只有一个叶子,最后通过下式来选择:

minall possible GEin+λΩ(G)

9.3.3 类别特征
  如果遇到类别特征,可以使用decision subset来代替decision stump:
b(x)=1[xiS]+1

其中 S 是部分类别的集合。
9.3.4 数值缺失
  可以考虑填充缺失数据,或者在建立树时同时选择替代特征,替代特征的分类结果必须要和原特征类似。

9.4 Decision Tree in Action

  展示了决策树的判断过程。

10 Random Forest

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值