树模型:从分类到排序与概率估计
在机器学习领域,树模型是一种强大且广泛应用的工具。它不仅可以用于分类任务,还能在排序和概率估计方面发挥重要作用。本文将深入探讨树模型在这些方面的应用原理、操作步骤以及相关注意事项。
树模型的分类与覆盖空间分析
在树模型中,不同的叶子节点会对未标记的实例进行分类。例如,某些叶子节点会将实例分类为正类,而其他叶子节点则分类为负类。在一个具体的例子中,更多未标记实例被分类为负类,这主要归因于某个位于树较高位置的叶子节点,因为它覆盖了大量的实例。
树模型的构建过程可以在覆盖空间中进行追踪。树的每个节点,无论是内部节点还是叶子节点,都覆盖了一定数量的正例和负例,因此可以在覆盖空间中表示为线段。例如,树的根节点覆盖了所有的正例和负例,对应于覆盖空间中的上升对角线。随着树的分裂,这条对角线会被替换为多个线段,每个线段代表一个节点或叶子节点。
然而,决策树覆盖曲线“自下而上”以分治方式构建的想法并不总是成立。覆盖曲线线段的排序纯粹基于叶子节点中的类分布,与树的结构没有直接关系。
排序和概率估计树
决策树等分组分类器可以将实例空间划分为多个段,通过学习这些段的顺序,它们可以转化为排序器。与其他一些分组模型不同,决策树可以访问段或叶子节点中的局部类分布,这可以直接用于构建对训练数据最优的叶子节点排序。
例如,在某个特定的树中,叶子节点的排序为 [D – F] – H – G – C,这导致了完美的排序(AUC = 1)。这种排序可以通过经验概率 ˙p 获得,在出现平局时,优先考虑覆盖更多正例的叶子节点。
排序的最优性可以通过覆盖曲线线段的斜率来解释。经验概率为 ˙p
超级会员免费看
订阅专栏 解锁全文
1831

被折叠的 条评论
为什么被折叠?



