22、递归分区回归：原理、方法与应用

最新推荐文章于 2026-01-08 12:48:55 发布

原创最新推荐文章于 2026-01-08 12:48:55 发布 · 15 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#递归分区 #回归 #树模型

数据挖掘与机器学习的基石专栏收录该内容

74 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

递归分区回归：原理、方法与应用

1. 递归分区概述

递归分区在处理某些函数的近似和估计时存在挑战。例如，对于跨越决策边界的函数，递归分区模型难以进行有效近似。当边界与坐标轴平行时，近似线性函数或少量变量的加性函数就变得困难。以单变量情况为例，如果真实函数是一条直线，最佳近似可能会呈现出阶梯状。不过，递归分区也有其优势，对于那些可以通过区域轻松描述的函数（如具有局部交互作用的函数），递归分区比其他加性模型更适用。从经验角度看，递归分区方法在高维数据中表现优于许多加性方法，因为数据的稀疏性自然会导致更粗糙的模型，但在低维数据中，递归分区方法往往竞争力不足。

在实际应用中，树模型通常比神经网络（即使进行了正则化）更平滑，这可能是由于剪枝操作的缘故。然而，树模型和神经网络具有相似的表达能力，因为它们在极限情况下都能近似任何合理的函数。因此，在许多情况下，树模型和神经网络估计器的稳定性大致相当。

递归分区是一种灵活的方法，其拟合过程通常包含三个典型核心阶段：
- 利用数据生成最大树。
- 从最大树中选择一组子树。
- 从子树集合中选择一个特定的子树。

理想情况下，这三个阶段应使用不相交、相等且随机选择的数据子集来完成，但在实际中并非总是可行。为了便于说明，我们假设样本大小分别为 $n_1$、$n_2$ 和 $n_3$，其中 $n = n_1 + n_2 + n_3$。实际中，也常使用将三个阶段中的两个结合起来的拟合程序。

2. 生成树

假设使用 $n$ 个数据点中的 $n_1$ 个来生成树 $T_{max}$。任何树生成过程都需要解决以下三个问题：
1. 选择中间节点的

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。