选择性伪标签聚类技术解析
1. 共识伪标签更准确
在聚类任务中,我们可以假设每个集成成员的聚类分配都包含一些独特信息。因为每个成员是独立随机初始化的,并且经历不同的随机训练动态。从形式上看,在给定集成中所有其他分配的条件下,集成中的任何一个分配与真实聚类标签之间存在严格正的条件互信息。
下面进行详细推理,选择一个任意的数据点 $x_0$ 和聚类 $c_0$。设 $X$ 是一个随机变量,表示在集成的 $n$ 个成员将 $x_0$ 分配到 $c_0$,而其他分配未知($n \geq 0$)的情况下,$x_0$ 的真实聚类。那么事件 $X = c_0$ 表示 $x_0$ 被正确聚类。设 $Y$ 是一个布尔随机变量,表示集成的第 $(n + 1)$ 个成员也将 $x_0$ 分配到 $c_0$。
假设如果集成的 $n$ 个成员将 $x_0$ 分配到 $c_0$,且其他分配未知,那么 $x_0$ 属于 $c_0$ 的概率至少为 $1/C$,属于其他所有聚类的概率相等,即:
$p(X = c_0) = t$
$\forall c \neq c_0, p(X = c) = (1 - t)/(C - 1)$,其中 $1/C \leq t \leq 1$。
可以证明熵 $H(X)$ 是 $t$ 的严格递减函数(具体证明见附录)。因此,上述关于条件互信息的假设 $I(X; Y) > 0$ 等价于 $p(X = c_0|Y) > p(X = c_0)$。这表明共识标签的准确性是集成规模的递增函数。标准伪标签训练使用 $n = 1$,而选择性伪标签聚类(SPC)使用 $n > 1$,因此可以得到更准确的伪标签用于训练。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



