面试问题总结----GBDT&LightGBM&Xgboost

本文深入探讨了信息熵、信息增益、信息增益率、基尼系数在决策树算法如GBDT、LightGBM和Xgboost中的作用。介绍了分类树与回归树的区别,强调分类树利用信息增益等标准划分节点,而回归树依赖最小均方差。此外,还详细讨论了决策树的剪枝策略,包括预剪枝和后剪枝,以防止过拟合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.信息熵 信息增益 信息增益率 基尼系数
在信号中每种信号出现的可能为pi (对应到最简单的二分类为 0 出现的可能为p0,1出现的可能为p1) 我们使用-log pi 来表示这种不确定性 ,那么对于所有信号的不确定性 很明显需要使用他们的期望来表示 即 -∑pilog(pi) 称为信息熵

信息增益就是选取某一特征作为树模型的分裂条件之后 将原始数据分为若干部分 若干部分的信息熵之和相比于分裂前信息熵减小的部分

H(D)=∑ k K
因为信息增益会受到特征取值种类的影响 ,特征取值越多 意味着确定性越高 如果特征种类取值极端情况每一个特征种类只有一个取值 那么最终一定能够降到信息熵为0的情况,这样会导致决策树分支过多 的情况 因此引入了Split Information项进行惩罚
在这里插入图片描述

基尼系数
Cart 树 是一个二叉树 可用于分类和回归 分类时使用gini指数作为标准,gini系数代表数据集的纯度 值越小 纯度越高(基尼系数和信息熵的区别为信息熵是用pi * log pi 而基尼系数是用 pi * pi
在这里插入图片描述

Question 2 分类树和回归树的区别

分类树和回归树节点划分的依据不同 分类树使用信息增益,信息增益率 基尼指数进行节点划分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值