4、决策树与随机森林:原理、性能评估及应用问题解析

决策树与随机森林:原理、性能评估及应用问题解析

1. 分类树基础

1.1 分裂准则与杂质函数

在分类树中,选择最佳分裂点是构建树的关键步骤。有几种常用的杂质函数来衡量分裂的优劣:
- 基于错误率的指标 :最直观的准则是使子节点中错误分类数量最少的分裂为最佳分裂。节点 $t$ 的杂质可以定义为错误率指标:
- $\iota_{EI}(t) = 1 - \max_{c} p(c|t)$
- 分裂带来的杂质减少为:$\Delta\iota_{EI}(t) = 1 - \max_{c} p(c|t) - p_{L} [1 - \max_{c} p(c|s, t_{L})] - p_{R} [1 - \max_{c} p(c|s, t_{R})]$
- 基于基尼指数的杂质函数 :该函数广泛应用,定义为:
- $\iota_{GI}(t) = 1 - \sum_{c} [p(c|t)]^2$
- 分裂带来的杂质减少为:$\Delta\iota_{GI}(s, t) = 1 - \sum_{c} [p(c|t)]^2 - p_{L} [1 - \sum_{c} [p(c|s, t_{L})]^2] - p_{R} [1 - \sum_{c} [p(c|s, t_{R})]^2]$
- 基于香农熵指数的杂质函数 :定义为:
- $\iota_{HI}(t) = - \sum_{c} p(c|t) \log_2 p(c|t)$
- 分裂带来的杂质减少为:$\Delta\iota_{HI}(s, t) = - \s

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值