决策树与随机森林:原理、应用与债券收益预测
1. 决策树相关技术
1.1 输入变量排名
在基于树的方法中,为了对响应变量进行预测并揭示变量间的关系,需要衡量输入变量的重要性。对于选定的最优子树 (T) 和特定的分裂规则,通过评估输入变量 (X_j) 提供的替代分裂的性能来量化其相关性。具体做法是,在每个内部节点用 (X_j) 提供的最佳替代分裂替换全局最优分裂,将替换分裂产生的不纯度减少量相加,得到不纯度的总变化 (VI(X_j)):
[VI(X_j) = \sum_{t\in T} 1_{\iota}(s_j^ , t)]
其中 (1_{\iota}) 指不纯度的减少量,是特定父节点 (t) 和 (X_j) 在该情况下能提供的最佳替代分裂 (s_j^ ) 的函数。直观上,(X_j) 上的分裂能保证的不纯度减少量越大,该变量在模型中的重要性就越高。为了生成排名并使其更直观,可对该度量进行归一化:
[\frac{VI(X_j)}{\max_j VI(X_j)} \cdot 100]
分母是最重要变量的值,比值乘以 100 后范围在 0 到 100 之间。
1.2 输入组合
通常分裂由对一个解释变量的测试结果决定。为了使树更强大和灵活,可以基于多个特征的组合进行分裂,如线性组合、布尔组合和特征创建。
1.3 决策树的优缺点
决策树具有诸多优点:
- 易于解释 :即使是非专业用户也能轻松理解和解释,当叶子节点数量不多时,可视化表示很有吸引力,能清晰展示决策序列、结果和概率,还可轻松转换为逻辑规则序列。
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



