数据挖掘十八般武艺(一):决策树

一、算法原理

(1)基本算法

决策树(Decision Tree),基于“树”结构进行决策:
        每个内部结点对应一个属性测试;
        每个分支对应属性测试的一种可能取值;
        每个叶结点对应一个决策结果。

决策树结构

学习过程:通过对训练样本的分析来确定“划分属性”(即内部结点所对应的属性)。

预测过程:将测试示例从根结点开始,沿着划分属性所构成的“判定测试序列”下行,直到叶结点。

策略:分而治之(Divide-and-Conquer)
        自根至叶递归;
        在每个内部结点寻找一个划分(或测试)属性。

递归停止条件:
        当前结点包含的样本全属于同一类别,无需划分;
        当前属性集为空, 或是所有样本在所有属性上取值相同,无法划分;
        当前结点包含的样本集合为空,不能划分。

决策树基本算法

(2)划分

①信息增益

信息熵(Entropy):度量样本集合“纯度”最常用的一种指标。

假定当前样本集合D中第k类样本(k=1, 2, …, |y|)所占的比例为,则D信息熵定义为:

Ent(D)的值越小,则D的纯度越高:
        Ent(D)的最小值:0,此时D中只有一类;
        最大值
,此时D中每个样本都是一类

信息增益(Information Gain):划分带来纯度的提升,信息熵的下降。

离散属性a的取值:

:D中在a上取值等于的样本集合
以属性a对数据集D进行划分所获得的信息增益为:
 

信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升”越大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值