决策树与规则学习:原理、方法及应用
1. 决策树的基本问题
决策树在构建过程中存在一个问题,即分割操作往往倾向于具有多个值的属性。当属性具有多个值时,会产生许多分支,此时杂质(impurity)可能会显著降低。例如,如果将训练索引 t 作为一个属性,杂质度量会选择它,因为这样每个分支的杂质为 0,但这并非一个合理的特征。具有多个分支的节点较为复杂,这与将类别判别拆分为简单决策的理念相悖。为此,人们提出了一些方法来惩罚这类属性,以平衡杂质下降和分支因子。
当数据中存在噪声时,如果将树生长到最纯净的状态,可能会得到一个非常大的树,从而导致过拟合现象。例如,在一组正确标记的实例中存在一个错误标记的实例。为了缓解过拟合问题,当节点达到足够纯净时,树的构建就会停止。具体来说,如果杂质度量 I < θI ,则数据子集不再进一步分割。这意味着我们不要求 pᵢₘⱼ 精确为 0 或 1,而是接近即可,这里的阈值为 θₚ 。在这种情况下,会创建一个叶节点,并将其标记为具有最高 pᵢₘⱼ 的类别。
θI (或 θₚ )是复杂度参数,类似于非参数估计中的 h 或 k 。当这些参数较小时,方差较高,树会生长得很大以精确反映训练集;而当它们较大时,方差较低,较小的树大致代表训练集,但可能存在较大的偏差。理想值取决于误分类成本、内存成本和计算成本。
一般建议在叶节点中存储类别的后验概率,而不是将叶节点标记为具有最高后验
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



