智能信息导论之决策树

最新推荐文章于 2024-08-27 17:27:28 发布

大东bigeast

最新推荐文章于 2024-08-27 17:27:28 发布

阅读量241

点赞数

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/z2876563/article/details/88854894

本文介绍了决策树算法中的几种关键概念，包括GINI指数、交叉熵、误分类误差等纯度度量方法。详细解释了ID3、C4.5及CART算法如何选择最优属性进行划分，并讨论了它们各自使用的纯度指标。

纯度的度量方法

GINI index
交叉熵
misclassification error

hunt ID3决策树算法

信息增益作为属性的选择标准
信息熵越大，她的可能性越多
找信息增益最大的属性

C4.5算法

split考虑了信息增益和信息量
它是分裂的信息熵，即按某属性分类的复杂性
再算information gain，再计算信息增益率（id3是计算信息增益)
找信心增益率最大的属性
且把连续性数据一分为二变为离散型
采用概率填充缺失值

CART算法试用GINI系数作为纯度的衡量标准（c4.5

纯度用信息增益率）
找最大的GINI系数比率最大的属性

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。