机器学习-树模型基础

本文深入探讨了树模型的基础,包括二叉树与多叉树,以及树模型中的损失概念,如熵和Gini指标。介绍了ID3、C45和CART三种树模型的构建方法和区别,并讨论了特征类型、剪枝策略及其相关问题。树模型因其可解释性和训练速度而受到青睐,但泛化能力较弱。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、树模型的基础

1.1. 二叉树与多叉树

略。

1.2. 树模型中的“损失”

如果类比一般机器学习模型中的损失函数的概念,树模型中的“损失的下降”指的是树的一个结点分裂为多个子节点时,子节点的混乱程度之和是否要比父节点小。熵和Gini指标是表示混乱程度的两种经典的方式。

(1)熵:表示树的一个结点内部信息混乱程度。
E n t r o p y = − ∑ c = 1 C P ( c ) ∗ l o g 2 ( P ( c ) ) Entropy=-\sum_{c=1}^CP(c)*log_2(P(c)) Entropy=c=1CP(c)log2(P(c)),其中 C C C表示类别的数量, c c c表示第几个类, P ( c ) P(c) P(c)表示该类别出现的比例。熵是非负数,熵越小树的结点越纯。

举个例子,在树的一个结点中,如果存在A,B和C三个类别的数据,数量比例分别为20%,30%和50%,那么当前结点的熵值为: e n t r o p y = − 0.2 ∗ l o g 2 ( 0.2 ) − 0.3 ∗ l o g 2 ( 0.3 ) − 0.2 ∗ l o g 2 ( 0.5 ) = 1.4854 entropy=-0.2*log_2(0.2)-0.3*log_2(0.3)-0.2*log_2(0.5)=1.4854 entropy=0.2log2(0.2)0.3log2(0.3)0.2log2(0.5)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值