22、递归分区回归:原理、方法与应用

递归分区回归:原理、方法与应用

1. 递归分区概述

递归分区在处理某些函数的近似和估计时存在挑战。例如,对于跨越决策边界的函数,递归分区模型难以进行有效近似。当边界与坐标轴平行时,近似线性函数或少量变量的加性函数就变得困难。以单变量情况为例,如果真实函数是一条直线,最佳近似可能会呈现出阶梯状。不过,递归分区也有其优势,对于那些可以通过区域轻松描述的函数(如具有局部交互作用的函数),递归分区比其他加性模型更适用。从经验角度看,递归分区方法在高维数据中表现优于许多加性方法,因为数据的稀疏性自然会导致更粗糙的模型,但在低维数据中,递归分区方法往往竞争力不足。

在实际应用中,树模型通常比神经网络(即使进行了正则化)更平滑,这可能是由于剪枝操作的缘故。然而,树模型和神经网络具有相似的表达能力,因为它们在极限情况下都能近似任何合理的函数。因此,在许多情况下,树模型和神经网络估计器的稳定性大致相当。

递归分区是一种灵活的方法,其拟合过程通常包含三个典型核心阶段:
- 利用数据生成最大树。
- 从最大树中选择一组子树。
- 从子树集合中选择一个特定的子树。

理想情况下,这三个阶段应使用不相交、相等且随机选择的数据子集来完成,但在实际中并非总是可行。为了便于说明,我们假设样本大小分别为 $n_1$、$n_2$ 和 $n_3$,其中 $n = n_1 + n_2 + n_3$。实际中,也常使用将三个阶段中的两个结合起来的拟合程序。

2. 生成树

假设使用 $n$ 个数据点中的 $n_1$ 个来生成树 $T_{max}$。任何树生成过程都需要解决以下三个问题:
1. 选择中间节点的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值