Candidate sampling：NCE loss和negative sample

最新推荐文章于 2025-10-31 15:43:40 发布

翻译最新推荐文章于 2025-10-31 15:43:40 发布 · 3.1k 阅读

深度学习同时被 2 个专栏收录

8 篇文章

订阅专栏

工具

2 篇文章

订阅专栏

本文介绍了Candidate Sampling的概念，特别是在大规模数据集中的应用，如NCE（Noise Contrastive Estimation）和Negative Sampling。这些方法用于减少在训练过程中计算softmax的复杂性。NCE通过对比噪声样本来估计目标分布，而Negative Sampling是一种近似方法，依赖于特定的噪声分布。文章还提到了TensorFlow中实现这两种方法的函数，包括tf.nn.nce_loss和sampled_softmax_loss的使用注意事项。

在工作中用到了类似于negative sample的方法，才发现我其实并不了解candidate sampling。于是看了一些相关资料，在此简单总结一些相关内容。

主要内容来自tensorflow的candidate_sampling和卡耐基梅隆大学一个学生写的一份notesNotes on Noise Contrastive Estimation and Negative Sampling，还有一部分参考了tensorflow的nce_loss和sampled_softmax_loss的文档。

What is Candidate Sampling

首先，什么是candidate sampling呢？假设我们有这样一个问题，给定一个样本集，其中每个样本由 $x_i, T_i)$ ，其中 $x_i$ 是输入特征， $T_i$ 是一个target小集合，满足 $\subset L, |T| << |L|$ 。我们的目标是学习一个 $F (x, y)$ ，使得给定一个 $x$ ，我们可以预测出类别 $y$ 为正的可能性。

如果我们使用正常的softmax方法，那么在计算每一个sample时，我们都需要遍历整个集合 $∣ L ∣$ ，对每一个可能的 $y$ 计算一次 $F (x, y)$ ，这是非常昂贵的操作。尤其是在NLP的相关预测中，这一操作代价更加高昂。所以candidate sampling的方法被提了出来：在计算每一个sample时，我们从整个标签集合或者负标签集合中随机采样出一个小的candidate集合 $S$ ，将 $S$ 和 $T$ 一起组成当前的candidate集合 $\cup T$ ，并在 $C$ 上计算 $F (x, y)$ 。

常见的candidate sampling方法的特性可以见下表：

在这个表中， $K (x)$ 是一个不依赖于候选类的任意函数。由于Softmax涉及归一化，因此添加这样的函数不会影响计算的概率。 $Q (y ∣ x)$ 是 $S_i$ 中类y的期望概率或者期望个数。

NCE和nagetive sample可以适应于 $T_i$ 是multiset的情况，在这种情况下， $P (y ∣ x)$ 等于 $T_i$ 中类y的期望个数。NCE，negative sampling和sampled logistic可以适应于 $S_i$ 是multiset的情况，在这种情况下， $Q (y ∣ x)$ 等于 $S_i$ 中类y的期望个数。

Noise Contrastive Estimation (NCE)

我们考虑一种简单的也是最常用的情况， $∣ T ∣ = 1$ 。以经典的word预测为例，此时 $T= {t_i}$ 。我们给定经验分布 $\widetilde{P}(x)$ 和 $\widetilde{P}(t|x)$ ，则每一个训练集中的正样本都相当于从 $\widetilde{P}(x)$ 采样出一个 $x_i$ ，并在这个 $x$ 的基础上在 $\widetilde{P}(t|x)$ 上采样出 $t_i$ ，并标定label $d = 1$ 。同时我们从分布 $Q (x)$ 中采样出 $k$ 个noise samples，则
$\begin{cases} \frac{k}{1 + k}Q(x) & \text{d=0}\\ \frac{1}{1 + k}\widetilde{P}(t|x)& \text{d=1} \end{cases}$
那么使用条件概率公式，我们就可以写出: