10、决策树及其相关模型的深入解析

决策树及其相关模型的深入解析

1. 决策树叶节点分类与特征工程

叶节点的类别取决于与之相关的类别的经验分布。通常,我们会将接受观测值超过 50% 的叶节点视为“接受”叶节点。或者,我们也可以陈述叶节点的结果分布,而不是将其与特定类别关联。

特征工程对于决策树模型来说是必要的,因为决策树具有受限的函数形式。决策树是通过进行越来越精细的样本分割来构建的。如果特征与因变量之间的函数关系不能通过单个特征的阈值来捕捉,那么基于树的模型将难以发现这种关系。例如,一个特征与因变量之间的线性关系,不能用截距和斜率来捕捉,而需要一个由可能数百个阈值构建的复杂阶跃函数。

以 HMDA 示例中的申请人收入为例,虽然获得任何类型的抵押贷款可能需要一定的最低收入水平,但显然较小的抵押贷款允许较低的收入。因此,我们实际需要的可能是债务收入比,这是评估贷款决策时常用的指标。如果我们不计算债务收入比并将其作为特征,决策树将需要许多内部节点才能实现通过计算比率所能达到的效果。所以,决策树仍然依赖专家判断来指导特征工程过程。

2. 决策树的训练

决策树使用递归样本分割,但样本分割本身是如何选择的呢?在实践中,决策树算法会通过顺序选择产生最低基尼不纯度或最大“信息增益”的变量和阈值来进行样本分割。

基尼不纯度的计算公式如下:
[G(p) = 1 - \sum_{k\in K} p_{k}^{2}]
基尼不纯度是在节点中类别的经验分布上计算的,它告诉我们分布在多大程度上由单个类别主导。例如,在图 4 - 1 中使用的模型,对申请人收入进行单次样本分割。收入低于 25,500 美元阈值的申请人中,接受概率为 0.656,拒绝概率为 0.3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值