两种保证性能的分类方法比较
1. 引言
在分类任务中,保证分类性能是一个重要的目标。本文将介绍两种分类方法:基于k - 近邻(k - NN)的转导置信机(TCM - kNN)和ROC等距线方法(ROC - kNN),并对它们进行比较。
2. 转导置信机(TCM)
2.1 基本概念
- 每个示例通过不一致性度量被赋予一个不一致性得分 $\alpha_i$。
- 给定一系列不一致性得分 $\alpha_1, \ldots, \alpha_{n + 1}$,未标记实例 $x_{n + 1}$ 被赋予标签 $y$ 的 $p$ 值定义为:
- $p_y = \frac{|{i = 1, \ldots, n + 1 : \alpha_i \geq \alpha_{n + 1}}|}{n + 1}$
- 若 $p$ 值接近其下限 $\frac{1}{n + 1}$,则示例 $z_{n + 1}$ 非常不一致;接近上限 1 则越一致。
- 转导置信机(TCM)是一个函数,它将示例序列 $z_1, \ldots, z_n$、未标记实例 $x_{n + 1}$ 和显著性水平 $\epsilon \in [0, 1]$ 映射到预测集:
- $\Gamma^{\epsilon}(z_1, \ldots, z_n, x_{n + 1}) = {y \in Y | p_y > \epsilon}$
- 给定预设显著性水平 $\epsilon$,TCM 的性能(准确率)为 $100(1 - \epsilon)\%$。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



