树分类器的原理与应用
1. 树分类器基础
树分类器在数据分类领域有着重要的应用。对于基于 $X_1, \cdots, X_k$ 构建的具有 $k + 1$ 个区域的二叉树分类器,当 $k/(n - k) \to 0$(即 $k/n \to 0$)时,$N(X) \to \infty$ 的概率成立。这里的推导借助了切比雪夫不等式:
[
\frac{2Mk}{n} + \sum_{i:n p_i > 2M} \frac{4p_i - \text{Var}{Z_i}}{n} \left(\text{E}{Z_i}\right)^2 < \frac{2Mk}{n} + \sum_{i:n p_i > 2M} \frac{4p_i}{n p_i} < \frac{(2M + 4)k}{n}
]
这一结论表明,我们不必过于关注区域概率质量的大小,区域数量才是更为关键的因素。在很多情况下,基于区域基数的停止规则可以有效舍弃。
2. 平衡搜索树
平衡多维搜索树在计算上具有吸引力。例如,对于每个节点,若每个子树的大小至少是其父节点下另一子树大小的 $\alpha$ 倍($\alpha > 0$ 为常数),那么具有 $n$ 个叶子节点的二叉树高度为 $O(\log n)$。因此,验证用于分类的平衡搜索树的一致性十分重要。
2.1 中位数树
我们考虑具有 $X$ - 属性且在叶子区域进行多数投票的二叉分类树。以中位数树为例,若有 $n$ 个点,我们根据一个坐标找到中位数,创建大小为 $\lfloor(n - 1)/2\rfloor$ 和 $\lceil(n - 1)/2\rceil$
超级会员免费看
订阅专栏 解锁全文
1917

被折叠的 条评论
为什么被折叠?



