分类器评估与量化:从基础到应用
1. 引导法(Bootstrap)
引导法是一种用于创建训练数据集的抽样方法。在该方法中,带标签的数据会进行有放回的均匀抽样,以此构建训练数据集,这就可能导致数据集中存在重复的数据点。具体操作是,对大小为 $n$ 的带标签数据进行 $n$ 次有放回抽样,最终得到的训练数据与原始带标签数据大小相同,但通常包含重复数据,并且会遗漏原始数据中的一些点。
某个特定数据点不被包含在一次抽样中的概率为 $(1 - \frac{1}{n})$,那么该数据点在 $n$ 次抽样中都不被包含的概率就是 $(1 - \frac{1}{n})^n$。当 $n$ 很大时,这个表达式近似为 $\frac{1}{e}$($e$ 是自然对数的底数)。所以,至少被包含一次在训练数据中的带标签数据点的比例约为 $1 - \frac{1}{e} \approx 0.632$。
训练模型 $M$ 是基于包含重复数据的引导样本构建的,整体准确率则使用原始的完整带标签数据作为测试示例来计算。不过,由于训练和测试示例之间存在大量重叠,这种估计往往会高估真实分类器的准确率。例如,1 - 最近邻分类器对于引导样本中包含的测试点总是能达到 100% 的准确率,因此在很多情况下,这种估计并不现实。
为了改善这种情况,可以通过对 $b$ 个不同的引导样本重复上述过程,从而确定误差估计的均值和方差。此外,还有两种改进的引导法:
- 留一法引导(Leave - one - out Bootstrap) :计算每个带标签实例 $X$ 的准确率 $A(X)$ 时,仅考虑 $b$ 个引导样本中 $X$ 不在训练数据的那些子集上的分类器性能。留一法
超级会员免费看
订阅专栏 解锁全文
1397

被折叠的 条评论
为什么被折叠?



