分类与回归树、装袋法和提升法详解
1. CART相关的其他问题
1.1 解释性
通常认为树模型易于解释,在小型树模型中,观察输入变量与预测结果之间的关系时,确实如此。然而,树模型具有不稳定性,即学习样本值的微小变化有时可能导致用于划分的变量发生显著变化,这使得仅通过检查已创建的树,难以就整体变量重要性等问题得出明确结论。
与多元回归类似,如果两个变量高度相关,且其中一个变量在模型早期就被纳入,那么可能根本无需使用另一个变量。但最终拟合的预测规则中未包含某个变量,并不意味着该变量与响应变量没有强关联。
同样,预测变量之间的相关性可能使识别重要的交互作用变得困难(尽管树模型在调整此类交互作用方面表现出色)。例如,考虑一个最初使用变量 $x_3$ 进行划分的回归树。如果 $x_1$ 和 $x_2$ 是两个高度相关的预测变量,$x_1$ 可能用于树的左半部分的划分,而 $x_2$ 不出现;$x_2$ 可能用于树的右半部分的划分,而 $x_1$ 不出现。粗略检查树可能会表明存在交互作用,但更仔细的分析可能会发现,该树几乎等同于仅涉及 $x_1$ 和 $x_3$ 的树,也几乎等同于仅涉及 $x_2$ 和 $x_3$ 的树,这两种替代树都表明是一种加法结构,没有或最多只有极其轻微的交互作用。
1.2 非最优性
需要注意的是,CART 或任何其他树结构分类或回归方法生成的分类与回归树并不能保证是最优的。在 CART 中,在树的生长过程的每个阶段,选择的划分是能立即最大程度降低不纯度(用于分类)或方差(用于回归)的划分。也就是说,CART 使用贪心算法来生长树。可能存在其他划分方式,能更好地为后续的有效划分做好准备。然而,一个具有
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



