随机森林与局部平滑学习方法解析
1. 随机森林算法
随机森林是一种集成方法,它将各种回归或分类树结合在一起。本质上,它是基于树的装袋法(bagging),并在预测变量的选择上增加了随机化。
1.1 算法步骤
设训练集为 $\mathcal{T} = {(X_j, Y_j), j = 1, \ldots, N}$,其中 $X_j$ 是 $d$ 维输入。算法步骤如下:
1. 对于 $b = 1, \ldots, B$:
- 从训练集 $\mathcal{T}$ 中进行自助重采样得到 $\mathcal{T} b$。
- 对样本 $\mathcal{T}_b$ 拟合随机森林树,例如在回归中得到 $\hat{m}_M(x, \mathcal{T}_b)$,具体方式如下:
- 随机选择 $M$ 个不同的输入分量 ${i_1, \ldots, i_M} \subset {1, \ldots, d}$。
- 仅在 $X {ji_{\ell}}, \ell = 1, \ldots, M$ 中选择最佳变量和相应的最佳分割点。
- 在分割点处根据最佳输入变量分割节点,得到两个子节点。
- 重复上述步骤,直到所有终端节点满足停止准则(节点包含的数据少于或等于 $n_{min}$)。
2. 在回归中,通过以下公式估计回归函数 $m(x)$:
$\hat{m} {RF}(x) = \frac{1}{B} \sum {b = 1}^{B} \hat{m} M(x, \mathcal{T}_b)$
在分类中,对 $X {N + 1} = x$
超级会员免费看
订阅专栏 解锁全文
9

被折叠的 条评论
为什么被折叠?



