复习机器学习算法:决策树


决策树就是不断选择信息增益最大的属性,进行分类。

核心部分是使用信息增益判断属性的分类性能。信息增益计算如下:

信息熵:

允许有多个类别。



计算所有属性的信息增益,选择最大的作为决策树的根节点。然后,样本分枝,继续判断剩余的属性的信息增益。

 

信息增益有缺点:信息增益偏袒具有较多值的属性。分裂信息,用增益比率作为衡量标准,如下:

 

决策树的优点:对于有缺省特征的样本,也能够分类;允许样本特征有一定的错误,鲁棒性好。

 

缺点:容易过拟合,生成的树太大。(可以使用提前停止树的生长;剪枝;随机森林等方法避免过拟合)

 

剪枝的方法:先让决策树自由的生长,允许发生过拟合。然后把决策树转换为等价的规则集合,删除那些不对结果有影响的节点。如下:



重复上面的过程,从底向上,遍历节点。

 

 参考:

《机器学习》

 http://blog.sina.com.cn/s/blog_4e4dec6c0101fdz6.html

http://www.cnblogs.com/tornadomeet/p/3395593.html

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值