机器学习总结:决策树


决策树算法我们并不陌生,可以看做是if-then规则的集合,那么决策树算法的关键在于如何确定每次if的条件是最优的。

ID3 C4.5

信息熵是信息论里的概念,其表达式如下所示:
在这里插入图片描述
熵表征的是事物的混乱程度,熵越大,混乱程度越大。
信息增益:
在这里插入图片描述
其表达式比较易懂,由信息熵减去减去特征A条件下D的条件熵,这也比较好理解,其实就是在A条件下数据集D不确定性的减少程度。显然,可以表征不同特征对于分类的能力。ID3算法就是对所有的特征进行信息增益的计算,找到当前最佳的特征作为if的条件。
以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题。因此使用信息增益比对这一问题进行校正。
信息增益比的表达式如下:
在这里插入图片描述
定义为其信息增益与训练数据集D源于特征A的值的熵之比,C4.5算法即为利用信息增益比作为特征的划分依据。

CART树(分类回归树classification and regression tree)

回归树采用平方误差最小化的准则进行特征选择,生成二叉树。具体的求解下式,得到最优切分变量A和最优切分点s。
在这里插入图片描述
接着对每个区域重复上述的划分过程。直到满足条件为止。

分类树采用基尼指数最小化准侧进行特征选择,生成二叉树。基尼指数的表达式为
在这里插入图片描述
基尼指数代表了模型的不纯度,基尼指数越小,不纯度越低,特征越好。
对于样本D,如果特征A的某个值a,把D分为D1和D2两部分,则在特征A的条件下,D的基尼指数表达式为:
在这里插入图片描述

树的剪枝

剪枝主要有两种方式:预剪枝后剪枝
预剪枝:在决策树的生成过程中,对每个节点再划分前先进行估计,若当前节点不能带来决策树泛化性能的提升,则停止划分。
后剪枝:先生成一颗完整的决策树,然后自底向上的对非叶节点进行考虑,若将该节点子树替换成叶子节点能带来泛化性能的提升,则将该子树替换为叶子节点。
这里说的泛化性能提升的评价标准其实是损失函数,对于C4.5来说是经验熵。
对于CART树来说,分类树是基尼系数,回归树是均方误差。
在这里插入图片描述
公式的图片来自于刘建平老师的博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值