决策树中预测确定性的估计方法与评估
在机器学习领域,预测的确定性估计是一个重要的问题。本文将介绍一种用于估计决策树预测确定性的方法,并对其进行详细的实验评估。
相关方法:共形预测
共形预测旨在通过返回一组覆盖预定(通常为95%)置信区间的预测,给出预测的置信界限。它使用非一致性度量来估计新示例x与一组先前见过的示例之间的距离,进而为x预测一个或多个标签组成的集合(称为x的预测区域),该集合被假定包含正确标签。与本文方法不同的是,共形预测可能为每个测试实例输出多个预测标签,而本文方法每次预测只分配一个标签。
提出的方法
- 方法直觉 :我们关注以下几个问题:如果将测试实例以错误标签添加到训练集中,决策树学习器是否会找到与该实例的错误标签一致的树?这棵树对这个预测的确定性如何?与将实例以正确标签添加到训练集的情况相比如何?该方法基于这样的思想:学习到的决策树可能依赖于单个实例的标签。例如,在鸢尾花数据集上,对于同一个实例x1,当以不同标签(正确标签Iris - virginica和错误标签Iris - versicolor)添加到训练数据中时,构建的两棵决策树会做出不同的预测。这表明当预测模型本身依赖于我们赋予实例的标签时,我们对预测标签的确定性较低,而仅基于叶节点比例的确定性度量无法反映这种不确定性。
- 方法描述 :
- 构建多棵树 :为了对实例x进行分类,该方法构建k棵树,其中k是目标属性可能的标签数量。对于每个标签,将x以该标签插入训练集并诱导一棵决策树。
超级会员免费看
订阅专栏 解锁全文
1355

被折叠的 条评论
为什么被折叠?



