从互补标签学习到概率估计的转换
1. 问题设定
在开始探讨互补标签学习(Complementary-Label Learning,CLL)之前,我们先了解一下普通的多类分类问题。
1.1 普通标签学习
在普通的多类分类问题中,假设要分类的类别数量为 $K$($K > 2$),标签集用 $Y = [K] = {1, 2, …, K}$ 表示,特征空间为 $X \subset R^d$。存在一个未知的联合分布 $D$ 于 $X \times Y$ 上,其密度函数为 $p_D(x, y)$。
给定 $N$ 个独立同分布(i.i.d.)的训练样本 ${(x_i, y_i)}_{i = 1}^N$ 和一个假设集 $H$,学习者的目标是从假设集 $H$ 中选择一个分类器 $f: X \to R^K$,用于对未见过的实例预测正确的标签。对于未见过的实例 $x$,其预测标签 $\hat{y}$ 通过对 $f$ 取 argmax 函数确定,即 $\hat{y} = \arg\max_i f_i(x)$,其中 $f_i(x)$ 表示 $f(x)$ 的第 $i$ 个输出。
学习者的目标是从 $H$ 中学习一个 $f$,以最小化以下分类风险:$E_{(x,y) \sim D}[\ell(f(x), e_y)]$,其中 $\ell: R^K \times R^K \to R^+$ 是损失函数,$e_y$ 是标签 $y$ 的独热向量。
1.2 互补标签学习
互补标签学习的目标仍然是找到一个能最小化普通分类风险的 $f$,但不同之处在于学习的数据集。在互补标签学习中,学习者无法获取真实标签 $y_i$,而是对于每个实
互补标签学习的概率估计框架
超级会员免费看
订阅专栏 解锁全文
876

被折叠的 条评论
为什么被折叠?



