决策树及其相关模型的深入解析
1. 决策树叶节点分类与特征工程
叶节点的类别取决于与之相关的类别的经验分布。通常,我们会将接受观测值超过 50% 的叶节点视为“接受”叶节点。或者,我们也可以陈述叶节点的结果分布,而不是将其与特定类别关联。
特征工程对于决策树模型来说是必要的,因为决策树具有受限的函数形式。决策树是通过进行越来越精细的样本分割来构建的。如果特征与因变量之间的函数关系不能通过单个特征的阈值来捕捉,那么基于树的模型将难以发现这种关系。例如,一个特征与因变量之间的线性关系,不能用截距和斜率来捕捉,而需要一个由可能数百个阈值构建的复杂阶跃函数。
以 HMDA 示例中的申请人收入为例,虽然获得任何类型的抵押贷款可能需要一定的最低收入水平,但显然较小的抵押贷款允许较低的收入。因此,我们实际需要的可能是债务收入比,这是评估贷款决策时常用的指标。如果我们不计算债务收入比并将其作为特征,决策树将需要许多内部节点才能实现通过计算比率所能达到的效果。所以,决策树仍然依赖专家判断来指导特征工程过程。
2. 决策树的训练
决策树使用递归样本分割,但样本分割本身是如何选择的呢?在实践中,决策树算法会通过顺序选择产生最低基尼不纯度或最大“信息增益”的变量和阈值来进行样本分割。
基尼不纯度的计算公式如下:
[G(p) = 1 - \sum_{k\in K} p_{k}^{2}]
基尼不纯度是在节点中类别的经验分布上计算的,它告诉我们分布在多大程度上由单个类别主导。例如,在图 4 - 1 中使用的模型,对申请人收入进行单次样本分割。收入低于 25,500 美元阈值的申请人中,接受概率为 0.656,拒绝概率为 0.3
超级会员免费看
订阅专栏 解锁全文
1592

被折叠的 条评论
为什么被折叠?



