树模型:回归与聚类树的方差缩减学习法
1. 决策树适应回归和聚类任务的基础思路
决策树在分类任务中表现出色,而将其应用于回归和聚类任务时,核心思路是基于方差缩减。以二分类的基尼指数为例,一个叶子节点的二分类基尼指数 $2\dot{p}(1 - \dot{p})$ 可理解为随机标记该叶子节点实例所产生的期望误差。这里,以概率 $\dot{p}$ 标记为正例,以概率 $1 - \dot{p}$ 标记为负例,就像抛一枚正面朝上概率为 $\dot{p}$ 的硬币来分类实例。若将正面记为 1,反面记为 0,这个随机变量的期望值是 $\dot{p}$,方差是 $\dot{p}(1 - \dot{p})$。这表明基尼指数可看作一个方差项,叶子节点越纯净,硬币的偏向性越强,方差越小。对于 $k$ 类问题,只需将所有一对多随机变量的方差相加。
具体来说,对于一个二元划分,将 $n$ 个实例划分为 $n_1$ 和 $n_2 = n - n_1$ 个实例,经验概率分别为 $\dot{p}_1$ 和 $\dot{p}_2$,那么这些子节点基于基尼指数的加权平均不纯度为:
[
\frac{n_1}{n} 2\dot{p}_1(1 - \dot{p}_1) + \frac{n_2}{n} 2\dot{p}_2(1 - \dot{p}_2) = 2\left(\frac{n_1}{n} \sigma_1^2 + \frac{n_2}{n} \sigma_2^2\right)
]
其中 $\sigma_j^2$ 是成功概率为 $\dot{p}_j$ 的伯努利分布的方差。因此,找到加权平均基尼指数最小的划分等同于最小化加权平均方差(因子 2 对所有划分都相同,可忽略),学习决策树本质上就是对实
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



