决策树

最新推荐文章于 2026-01-01 16:34:03 发布

原创最新推荐文章于 2026-01-01 16:34:03 发布 · 1.4k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

机器学习专栏收录该内容

4 篇文章

订阅专栏

1.

信息熵：度量样本集合纯度最常用的一种指标；信息熵Ent(D)越小，则样本集D的纯度越高

Ent(D)= E[ log(2,1/p(xi)) ] = -∑pklog(2,pk) (i=1,2,..n);pk是指第k类样本所占比例（此处分类则根据标签划分类）

信息增益（ID3决策树的准则）：离散属性a有V个值，对D按照a进行划分，会产生V个分支点，其中第v个分支点包含了D中属性a取值为av的样本，记为Dv，然后计算 Dv的信息熵，然后赋予权重|Dv|/|D|.一般，信息增益越大，意味着使用属性a来进行划分所获得的‘纯度提升’越大。

Gain(D,a)=Ent(D)-Σ(v=1...V)|Dv|/|D|Ent(Dv)

信息增益率（C4.5决策树的准则）：

Gain_ratio(D,a)=Gain（D,a）/IV(a);IV(a)=Σ(v=1...V)|Dv|/|D|log(2,|Dv|/|D|)

值得注意的是：信息增益率对取值数较少的属性有所偏好，因此C4.5算法并不是直接选择增一律最大的候选划分属性，而是先从候选划分属性中找出高于平均水平的属性，再从中选择增益率最高的。（可以看出，C4.5决策树是在ID3决策树基础上改进）

基尼值：Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此，Gini(D)越小，则数据集D的纯度越高

Gini(D)=1-Σ(k=1...y)pk^2

基尼指数(CART决策树准则)：Gini_index(D,a)=Σ(k=1...y)|Dv|/|D|Gini(Dv); 选择基尼指数最小的属性作为最优划分属性，即a*=argmin Gini_index(D,a) 其中 a属于属性集合A。

2.

连续值处理：以上1所讲的是针对离散属性值来生成决策树，如果是连续值，则先进行离散化。最简单的方法是采用二分法对连续属性进行处理。

连续值处理步骤：1.先对目标属性值进行从小到大排序，记为{a1,a2,....,an} 2.对相邻两个数ai和a(i+1),求t=(ai+a(i+1))/2,确定n-1个划分点 3.对每个划分点进行划分求信息增益，然后求出最大信息增益以及相应的划分点。思路类似于交叉验证。

想

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。