决策树与随机森林:原理、性能评估及应用问题解析
1. 分类树基础
1.1 分裂准则与杂质函数
在分类树中,选择最佳分裂点是构建树的关键步骤。有几种常用的杂质函数来衡量分裂的优劣:
- 基于错误率的指标 :最直观的准则是使子节点中错误分类数量最少的分裂为最佳分裂。节点 $t$ 的杂质可以定义为错误率指标:
- $\iota_{EI}(t) = 1 - \max_{c} p(c|t)$
- 分裂带来的杂质减少为:$\Delta\iota_{EI}(t) = 1 - \max_{c} p(c|t) - p_{L} [1 - \max_{c} p(c|s, t_{L})] - p_{R} [1 - \max_{c} p(c|s, t_{R})]$
- 基于基尼指数的杂质函数 :该函数广泛应用,定义为:
- $\iota_{GI}(t) = 1 - \sum_{c} [p(c|t)]^2$
- 分裂带来的杂质减少为:$\Delta\iota_{GI}(s, t) = 1 - \sum_{c} [p(c|t)]^2 - p_{L} [1 - \sum_{c} [p(c|s, t_{L})]^2] - p_{R} [1 - \sum_{c} [p(c|s, t_{R})]^2]$
- 基于香农熵指数的杂质函数 :定义为:
- $\iota_{HI}(t) = - \sum_{c} p(c|t) \log_2 p(c|t)$
- 分裂带来的杂质减少为:$\Delta\iota_{HI}(s, t) = - \s
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



