决策树

最新推荐文章于 2018-03-20 22:03:39 发布

_飞奔的蜗牛_

最新推荐文章于 2018-03-20 22:03:39 发布

阅读量775

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习与数据挖掘 opencv 文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/dataningwei/article/details/54297308

机器学习与数据挖掘同时被 2 个专栏收录

29 篇文章

订阅专栏

3 篇文章

订阅专栏

本文深入浅出地介绍了决策树的基本概念及其不纯度衡量标准，包括回归不纯度、熵不纯度等，并重点阐述了ID3、C4.5及CART三种常见决策树算法的特点与区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

老生常谈决策树。提到决策树，不得不说不纯度的概念。

回归不纯度

$i (N) = \sum j (y j - r j) 2$ $i(N)=\sum_j(y_j-r_j)^2$
其中， $r_j$ 为该结点的预测值输出值，通常此处设为该节点所有值的均值， $y_j$ 为真值。我们的目标是最小化该值。
分类不纯度
熵不纯度： $i(N)=\sum_jP(\omega_j)log(\omega _j)$
Gini不纯度： $i(N)=\sum_{j \neq i}P(w_i)P(w_j)=\sum_jP(w_j)(1-P(w_j))=1-\sum_jP(w_j)^2$
错分不纯度： $i(N)=1-maxP(w_j)$

决策树是一个统称，其实它包含若干类，常见的种类有： ID3、C4.5 和CART,说说各自特点：
ID3: 1986 Ross Quinlan提出，采用熵不纯度规则分裂节点，通常分支因子 $B_j>2$ ，标准版本的ID3没有剪枝操作。
C4.5: 为ID3改进版本，特征值可以处理连续变量，采用信息熵增益比。
CART：分类回归树，与ID3和C4.5最重要的区别便是，其能处理回归问题，即数值预测。节点分裂准则采用Gini不纯度。（其实，现在的CART算法，不纯度模式是可选的）
　　由于CART的通用性，在一些机器学习库中实现的决策树绝大多数是CART树，如opencv 和sklearn中。有必要系统的学习一下。以下以opencv为原型学习。
　　根据特征属性和标签属性是数值型还是分类型，可将决策树分为四类：

特征为类别的分类树：find_split_cat_class（）
特征为数值的分类树：find_split_ord_class（）
特征为类别的回归树：find_split_cat_reg（）
特征为数值的回归树：find_split_ord_reg（）

详细讲解请参照博文：opencv 决策树源码分析 http://blog.youkuaiyun.com/zhaocj/article/details/50503450
　　
　　

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。