决策树 学习笔记

本文详细介绍了决策树的概念,包括信息熵和基尼系数这两种划分标准,探讨了CART决策树的超参数如max_depth、min_samples_split等,并提到了决策树在解决回归问题时的方法及其局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是决策树?

决策树如下:
在这里插入图片描述
问题:
每个节点是在哪个维度做划分?
某个维度是在哪个值上做划分?

信息熵

解决上述问题的其中一种方法:信息熵
熵表示随机变量的不确定度:熵越大,数据的不确定性越高;反而反之。
信息熵的计算公式:
在这里插入图片描述
其中,pi表示某一类信息所占的比例。

使用信息熵寻找最优划分

对于不同的维度、不同的值,哪种划分使得划分后的信息熵最低(确定性最高)?
一次划分,对不同维度、不同值进行搜索即可;
多次划分,是在上次划分后的子树上再进一步划分。

基尼系数

另一种划分指标:基尼系数
基尼系数越大,数据的不确定性越高;反而反之。
其公式为:
在这里插入图片描述
其中,pi表示某一类信息所占的比例。
划分过程与使用信息熵寻找最优划分相同。

信息熵vs基尼系数

信息熵的计算比基尼系数稍慢
scikit-learn中默认为基尼系数
大多时候二者没有特别的效果优劣

CART与决策树中的超参数

CART:Classification and Regression Tree,根据某一个维度和阈值进行二分。
scikit-learn是使用CART实现的。

复杂度

预测:O(log m)
训练:O(nmlog m) 训练复杂度较高
剪枝:降低复杂度,解决过拟合

可调参数

max_depth:最大划分层次
min_samples_split:划分后子树样本最小数要求(子树最少应有多少样本)
min_samples_leaf:叶子节点的样本最小数要求(叶子节点最少应有多少样本)
max_leaf_nodes:叶子节点最大数要求(最多只能有多少个叶子节点)
其他参数,可参加官方文档(使用时尤其如此)

决策树解决回归问题

回归:叶子节点所包含样本的数据的平均值作为预测值。

决策树的局限性

决策边界与坐标轴是平行的,不一定能反映数据的真实情况,即数据倾斜的情况;
对个别数据敏感。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值