10、决策树及其相关模型的深入解析

最新推荐文章于 2025-12-16 14:41:52 发布

wine

最新推荐文章于 2025-12-16 14:41:52 发布

阅读量24

点赞数

CC 4.0 BY-SA版权

分类专栏： TensorFlow赋能经济金融文章标签：决策树回归树随机森林

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wine/article/details/152583762

TensorFlow赋能经济金融专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

决策树及其相关模型的深入解析

1. 决策树叶节点分类与特征工程

叶节点的类别取决于与之相关的类别的经验分布。通常，我们会将接受观测值超过 50% 的叶节点视为“接受”叶节点。或者，我们也可以陈述叶节点的结果分布，而不是将其与特定类别关联。

特征工程对于决策树模型来说是必要的，因为决策树具有受限的函数形式。决策树是通过进行越来越精细的样本分割来构建的。如果特征与因变量之间的函数关系不能通过单个特征的阈值来捕捉，那么基于树的模型将难以发现这种关系。例如，一个特征与因变量之间的线性关系，不能用截距和斜率来捕捉，而需要一个由可能数百个阈值构建的复杂阶跃函数。

以 HMDA 示例中的申请人收入为例，虽然获得任何类型的抵押贷款可能需要一定的最低收入水平，但显然较小的抵押贷款允许较低的收入。因此，我们实际需要的可能是债务收入比，这是评估贷款决策时常用的指标。如果我们不计算债务收入比并将其作为特征，决策树将需要许多内部节点才能实现通过计算比率所能达到的效果。所以，决策树仍然依赖专家判断来指导特征工程过程。

2. 决策树的训练

决策树使用递归样本分割，但样本分割本身是如何选择的呢？在实践中，决策树算法会通过顺序选择产生最低基尼不纯度或最大“信息增益”的变量和阈值来进行样本分割。

基尼不纯度的计算公式如下：
[G(p) = 1 - \sum_{k\in K} p_{k}^{2}]
基尼不纯度是在节点中类别的经验分布上计算的，它告诉我们分布在多大程度上由单个类别主导。例如，在图 4 - 1 中使用的模型，对申请人收入进行单次样本分割。收入低于 25,500 美元阈值的申请人中，接受概率为 0.656，拒绝概率为 0.3

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。