决策树——分类树
一、 选择划分特征的标准
构建分类树,每一层都要选择合适的划分特征。如果数据集DDD使用了某个特征AiA_iAi划分后,它的数据纯度提高了,那么就说明特征AiA_iAi适合被作为此分支的划分特征。选取划分特征有以下三种方法:
(1)信息增益
信息熵
熵,在物理中表示一个体系混乱程度的度量,熵越高,混乱程度越高。
信息熵(Ent(x)Ent(x)Ent(x))是一个系统有序化程度的度量。Ent(x)Ent(x)Ent(x)越小,则某个样本集合中的元素纯度越高。
假如一个随机变量X取值为X={
x1,x2,...,xn}X=\left \{ x_1,x_2,...,x_n \right \}X={
x1,x2,...,xn},每一种取到的概率分别为{
p1,p2,...,pn}\left \{ p_1,p_2,...,p_n \right \}{
p1,p2,...,pn},则XXX的信息熵的公式为:
Ent(X)=−∑i=1npilog2pi Ent(X)=-\sum_{i=1}^{n}p_i\log_2p_i Ent(X)=−i=1∑npilog2pi
信息增益
信息增益,是数据集DDD按照其中的某个特征AiA_iAi所进行划分之后,数据集DDD的纯度提升的度量。一般而言,信息增益越大,意味着使用A∗A^*A∗这个特征来划分数据集DDD所获得的的纯度提升越大。
一个数据集DDD,对于DDD的最终分类C={ c1,c2,...,ck}C=\left \{ c_1,c_2,...,c_k \right \}C={ c1,c2,...,ck},可以根据集合CCC,计算数据集DDD的根节点信息熵Ent(D)Ent(D)Ent(D)。
假设数据集DDD包含mmm种特征A={
A1,A2,...,Am}A=\left \{ A_1,A_2,...,A_m \right \}A={
A1,A2,...,Am},对于每个特征aia_iai,其又包含nnn个取值为{
a1,a2,...,an}\left\{a_1,a_2,...,a_n\right\}{
a1,a2,...,an}的离散值。设数据集在AiA_iAi这个特征上的分类为DAiD_{A_i}DAi,那么特征AiA_iAi的信息熵为:
Ent(DAi)=−∑v=a1an∣Dv∣∣D∣Ent(Dv) Ent(D_{A_i})=-\sum_{v=a_1}^{a_n}\frac{\left | D_v \right |}{\left | D \right |}Ent(D_v) Ent(DAi)=−v=a1∑an∣D∣∣Dv∣Ent(Dv)
所以,对于每个特征AiA_iAi对样本集合DDD进行划分所获得的信息增益为:
Gain(D,Ai)=Ent(D)−∑v=a1an∣Dv∣∣D∣Ent(Dv) Gain(D,A_i)=Ent(D)-\sum_{v=a_1}^{a_n}\frac{\left | D_v \right |}{\left | D \right |}Ent(D_v) Gain(D,

本文深入探讨决策树的构建过程,重点讲解选择划分特征的标准,包括信息增益、增益率和基尼指数的概念及计算方法。同时,阐述了决策树的剪枝策略,包括预剪枝和后剪枝,以防止过拟合,提高模型泛化能力。
最低0.47元/天 解锁文章
9万+

被折叠的 条评论
为什么被折叠?



