决策树——分类树

本文深入探讨决策树的构建过程,重点讲解选择划分特征的标准,包括信息增益、增益率和基尼指数的概念及计算方法。同时,阐述了决策树的剪枝策略,包括预剪枝和后剪枝,以防止过拟合,提高模型泛化能力。

决策树——分类树


一、 选择划分特征的标准

构建分类树,每一层都要选择合适的划分特征。如果数据集DDD使用了某个特征AiA_iAi划分后,它的数据纯度提高了,那么就说明特征AiA_iAi适合被作为此分支的划分特征。选取划分特征有以下三种方法:

(1)信息增益

信息熵

熵,在物理中表示一个体系混乱程度的度量,熵越高,混乱程度越高。

信息熵(Ent(x)Ent(x)Ent(x))是一个系统有序化程度的度量。Ent(x)Ent(x)Ent(x)越小,则某个样本集合中的元素纯度越高。

假如一个随机变量X取值为X={ x1,x2,...,xn}X=\left \{ x_1,x_2,...,x_n \right \}X={ x1,x2,...,xn},每一种取到的概率分别为{ p1,p2,...,pn}\left \{ p_1,p_2,...,p_n \right \}{ p1,p2,...,pn},则XXX的信息熵的公式为:
Ent(X)=−∑i=1npilog⁡2pi Ent(X)=-\sum_{i=1}^{n}p_i\log_2p_i Ent(X)=i=1npilog2pi

信息增益

信息增益,是数据集DDD按照其中的某个特征AiA_iAi所进行划分之后,数据集DDD的纯度提升的度量。一般而言,信息增益越大,意味着使用A∗A^*A这个特征来划分数据集DDD所获得的的纯度提升越大。

一个数据集DDD,对于DDD的最终分类C={ c1,c2,...,ck}C=\left \{ c_1,c_2,...,c_k \right \}C={ c1,c2,...,ck},可以根据集合CCC,计算数据集DDD的根节点信息熵Ent(D)Ent(D)Ent(D)

假设数据集DDD包含mmm种特征A={ A1,A2,...,Am}A=\left \{ A_1,A_2,...,A_m \right \}A={ A1,A2,...,Am},对于每个特征aia_iai,其又包含nnn个取值为{ a1,a2,...,an}\left\{a_1,a_2,...,a_n\right\}{ a1,a2,...,an}的离散值。设数据集在AiA_iAi这个特征上的分类为DAiD_{A_i}DAi,那么特征AiA_iAi的信息熵为:
Ent(DAi)=−∑v=a1an∣Dv∣∣D∣Ent(Dv) Ent(D_{A_i})=-\sum_{v=a_1}^{a_n}\frac{\left | D_v \right |}{\left | D \right |}Ent(D_v) Ent(DAi)=v=a1anDDvEnt(Dv)
所以,对于每个特征AiA_iAi对样本集合DDD进行划分所获得的信息增益为:
Gain(D,Ai)=Ent(D)−∑v=a1an∣Dv∣∣D∣Ent(Dv) Gain(D,A_i)=Ent(D)-\sum_{v=a_1}^{a_n}\frac{\left | D_v \right |}{\left | D \right |}Ent(D_v) Gain(D,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值