工程师统计学习之树模型学习介绍
在统计学习领域,树模型是一种非常重要且实用的方法。下面将详细介绍树模型相关的知识,包括其基本原理、构建算法以及处理回归问题的具体方式。
1. 树模型概述
树模型,如分类与回归树(CART),自上世纪八十年代初以来,一直是最受欢迎的学习方法之一。它具有易于理解和计算快速的特点,适合作为集成学习方法的基础,因为在集成学习中需要同时计算多个相似的函数估计。
树模型作为筛估计方法,使用分段常数函数进行近似。从积分理论可知,在 d 维空间中,每个可积函数 $m(x)$ 都可以用分段常数函数以如下方式进行任意好的近似:
[m(x) \approx \hat{m}(x) = \sum_{k=1}^{M} b_k 1_{A_k}(x)]
其中,对于足够大的 $M$、合适的实值系数 $b_k$ 和可测的 d 维集合 $A_k$($k = 1, \ldots, M$),满足 (\int |m(x) - \hat{m}(x)|dx) 很小。这里的指示函数 (1_A(x)) 当 (x) 属于 (A) 时取值为 1,否则为 0。
如果将 $A_k$ 限制为超矩形(对于 (d = 1) 为区间,(d = 2) 为矩形,(d = 3) 为长方体等),这种通用近似性质仍然成立。对于合适的 (a_i < b_i),超矩形 (R) 对应于满足 (a_i \leq x_i \leq b_i)((i = 1, \ldots, d))的所有 (x) 的集合,这里允许 (a_i = -\infty) 和 (b_i = \infty)。
超矩形在分段常数近似中被使用,是因为基于树的函数 (\hat{m}(x)) 是从训练集以迭代
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



