基于Negative Sampling的word2vec

最新推荐文章于 2025-02-17 17:16:24 发布

原创最新推荐文章于 2025-02-17 17:16:24 发布 · 307 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#word2vec

nlp 专栏收录该内容

6 篇文章

订阅专栏

本文深入探讨了NegativeSampling在word2vec模型中的作用，解析了CBOW和skip-gram模型如何利用该方法优化词向量计算，通过引入负样本提升训练效率和效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基于Negative Sampling的word2vec

CBOW

Negative Sample的含义：对于一个中心词w和其上下文Context(w),我们希望在给定Context(w)的条件下，得到w的概率越大越好，得到其他词的概率越小越好，这个w就作为正样本，除w之外的其他词就作为负样本。不过不去词典中所有的词，而是从词典中抽取neg个词作为负样本，使用负采样算法(后面会说)。
通过逻辑回归来区分上述正样本和负样本：
$=\sigma(X_w^T\theta^u), \ \ {u \in w \cup u \in neg(w)}$
$X_w$ 为Context中的词向量之和。
$\sigma$ 的含义为：给定一个输入，预测值与真实值相等的概率，那么当真实值为负祥本时，期望预测值不等于真实值的概率(即预测值等于正样本的概率)为 $\sigma(X_w^T\theta^u)$
那么给定一个输入，期望其为正样本 $w$ 的概率为：
$\begin{cases} \sigma(X_w^T\theta^u) , u = w \ \\ 1 - \sigma(X_w^T\theta^u), u \neq w \end{cases}$
$\sigma(X_w^T\theta^u)^{y^u}(1-\sigma (X_w^T\theta^u))^{1-y^u}$
(当 $u = w$ 时，令 $y^u=1$ ，否则， $y^u=0$ )

对于给定的语料库 $C$ 我, 们期望：
$\prod_{w \in C}\prod_{u \in w \cup u \in neg(w)} P(context(w), u) = \sigma(X_w^T\theta)\prod_{u \in neg(w)}(1-\sigma(X_w^T\theta^u)) \ \ \ \ \ \ (1) \\ =\prod_{w \in C}\prod_{u \in w \cup u \in neg(w)} \sigma(X_w^T\theta^u)^{y^u}(1-\sigma (X_w^T\theta^u))^{1-y^u} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2)$
值越大越好。
对 $L$ 取对数，依然令其为 $L$ ：
$\sum_{w \in C}\sum_{u \in w \cup u \in neg(w)} \{y^u log(\sigma (X_w^T\theta^u)) + (1-y^u)log(1-\sigma(X_w^T\theta^u))\}$
对 $L$ 求偏导：
$\frac{\partial L}{\partial \theta^u} = [y^u - \sigma(X_w^T\theta^u)]X_w$
$\frac{\partial L}{\partial X_w} = \sum_{u \in w \cup u \in neg(w)}[y^u - \sigma(X_w^T\theta^u)]\theta^u$
那么：
$\theta^u =\theta^u + \eta [y^u - \sigma(X_w^T\theta^u)]X_w$
$V(\hat w) = V(\hat w) + \eta \sum_{u \in w \cup u \in neg(w)} [y^u - \sigma(X_w^T\theta^u)]\theta^u, \hat w \in Context(w)$
$V(\hat w)$ 为Context(w)中的每个词的词向量，这里是要更新每个词向量，而不是它们的和 $X_{w}$ .

(注：其实 $\theta^u$ 用 $\theta^u_w$ 表示更好)

skip_gram

给定 $w$ ，求得到 $C o n t e x t (w)$ 的概率。这里求 $C o n t e x t (w)$ 。怎么求 $C o n t e x t (w)$ 呢？这里是根据 $w$ ,求 $C o n t e x t (w)$ 中的每一个单词u，然后得到它们概率的乘积。对每一个正样本u，都用负采样算法求得neg个负样本 $N E G (u)$ 。
使用二分类回归，我们的期望是正样本的概率 $P (u ∣ w)$ 越大越好，负样本的概率 $P (N E G (u) ∣ w)$ 越小越好，即 $（ 1 - P (N E G (u) ∣ w))$ 越大越好。
$\prod_{u \in Context(w)}\{ P(u|w)\cdot\prod_{z \in NEG(u)}(1-P(z|w)) \} \\ = \prod_{u \in Context(w)} \prod_{z \in \{u\} \cup NEG(u)}\sigma(V(w)\theta_w^z)^{y^z}(1-\sigma(V(w)\theta_w^z)^{(1-y^z)})$
$y^z=1,当z=u;否则有y^z=0$
令：
$log\prod_{w \in C} \prod_{u \in Context(w)} \prod_{z \in \{u\} \cup NEG(u)}\sigma(V(w)\theta_w^z)^{y^z}(1-\sigma(V(w)\theta_w^z)^{(1-y^z)})$
然后求偏导。。。