16、树模型:回归与聚类树的方差缩减学习法

树模型:回归与聚类树的方差缩减学习法

1. 决策树适应回归和聚类任务的基础思路

决策树在分类任务中表现出色,而将其应用于回归和聚类任务时,核心思路是基于方差缩减。以二分类的基尼指数为例,一个叶子节点的二分类基尼指数 $2\dot{p}(1 - \dot{p})$ 可理解为随机标记该叶子节点实例所产生的期望误差。这里,以概率 $\dot{p}$ 标记为正例,以概率 $1 - \dot{p}$ 标记为负例,就像抛一枚正面朝上概率为 $\dot{p}$ 的硬币来分类实例。若将正面记为 1,反面记为 0,这个随机变量的期望值是 $\dot{p}$,方差是 $\dot{p}(1 - \dot{p})$。这表明基尼指数可看作一个方差项,叶子节点越纯净,硬币的偏向性越强,方差越小。对于 $k$ 类问题,只需将所有一对多随机变量的方差相加。

具体来说,对于一个二元划分,将 $n$ 个实例划分为 $n_1$ 和 $n_2 = n - n_1$ 个实例,经验概率分别为 $\dot{p}_1$ 和 $\dot{p}_2$,那么这些子节点基于基尼指数的加权平均不纯度为:
[
\frac{n_1}{n} 2\dot{p}_1(1 - \dot{p}_1) + \frac{n_2}{n} 2\dot{p}_2(1 - \dot{p}_2) = 2\left(\frac{n_1}{n} \sigma_1^2 + \frac{n_2}{n} \sigma_2^2\right)
]
其中 $\sigma_j^2$ 是成功概率为 $\dot{p}_j$ 的伯努利分布的方差。因此,找到加权平均基尼指数最小的划分等同于最小化加权平均方差(因子 2 对所有划分都相同,可忽略),学习决策树本质上就是对实

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值