DecisionTree --- 决策树

一、什么是决策树

        决策树是附加概率结果的一个树状的决策图,是直观的运用统计概率分析的图法。机器学习中决策树是一个预测模型,它表示对象属性和对象值之间的一种映射,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布,树的最顶层是根结点。

 

二、决策树案例

案例:

 

决策树: 

 

三、决策树建立

        决策树的建立首先要确定选择特征,选择一个合适的特征作为判断节点,可以快速的分类,减少决策树的深度。决策树的目标就是把数据集按对应的类标签进行分类。最理想的情况是,通过特征的选择能把不同类别的数据集贴上对应类标签。特征选择的目标使得分类后的数据集比较纯。如何衡量一个数据集纯度,这里就需要引入数据纯度函数。

 

3.1、信息增益

        信息熵表示的是不确定度。均匀分布时,不确定度最大,此时熵就最大。当选择某个特征对数据集进行分类时,分类后的数据集信息熵会比分类前的小,其差值表示为信息增益。信息增益可以衡量某个特征对分类结果的影响大小。

 

3.1.1、公式讲解:

(1)假设在样本数据集 D 中,混有 c 种类别的数据。构建决策树时,根据给定的样本数据集选择某个特征值作为树的节点。在数据集中,可以计算出该数据中的信息熵:

Info(D) = -\sum_{i-1}^{c}p_{i}log_{2}(p_{i})

其中 D 表示训练数据集,c 表示数据类别数,Pi 表示类别 i 样本数量占所有样本的比例。

 

(2)对应数据集 D,选择特征 A 作为决策树判断节点时,在特征 A 作用后的信息熵的为 Info(D),计算如下:

Info_{A}(D) = -\sum_{j-1}^{k}\frac{D_{j}}{D}\times Info(D_{j})

其中 k 表示样本 D 被分为 k 个部分。

 

(3)信息增益表示数据集 D 在特征 A 的作用后,其信息熵减少的值。公式如下:

Gain(A) = Info(D) - Info_{A}(D)

对于决策树节点最合适的特征选择,就是 Gain(A) 值最大的特征。

 

3.1.2、结合案例讲解:

(1)根据上述提到的案例进行对应分析,首先我们需要确定的是根节点,那么根据上述案例可以获得&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值