自然语言处理自学笔记-02 Word2vec——基于神经网络学习单词表示

最新推荐文章于 2022-04-25 23:10:04 发布

布比与迈克大炮

最新推荐文章于 2022-04-25 23:10:04 发布

阅读量247

点赞数

分类专栏： nlp 文章标签： tensorflow 深度学习

本文链接：https://blog.youkuaiyun.com/bubid/article/details/108431991

版权

本文介绍了Word2vec的原理，包括skip-gram模型和连续词带模型CBOW，重点讲解了skip-gram的损失函数和负采样方法，以及如何用TensorFlow实现Word2vec。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Word2vec

Word2vec通过查看单词上下文并以数字方式表示它，来学习给定单词的含义。“上下文”指目标单词前面和后面的固定数量的单词。比如包含 $w_0,w_1,...,w_i,...,w_n$ 的 $n$ 个单词的语料库。在给定单词 $w_i$ 之后，可以预测上下文单词。这意味着对于任何给定的单词 $w_i$ ，以下的概率较高：
${\omega }_{i-m}},{ {\omega }_{i-1}},{ {\omega }_{i+1}},...,{ {\omega }_{i+m}}|{ {\omega }_{i}})=\prod\limits_{j\ne i\Lambda j=i-m}^{i+m}{P({ {\omega }_{j}}|{ {\omega }_{i}})}$

定义损失函数

在现实世界，词汇量会轻易超过10000个单词。因此需要机器学习算法自动找到好的词嵌入。这样任务就变成了让损失最小化。为神经网络定义成本函数如下：
$J(\theta )=-(1/N-2m)\sum\limits_{i=m+1}^{N-m}{\prod\limits_{j\ne i\Lambda j=i-m}^{i+m}{P({ {\omega }_{j}}|{ {\omega }_{i}})}}$
我们想要是 $P(w_j|w_i)$ 最大化，需要在上式前面加一个负号将其转化为损失函数。
将上式转化为对数空间，可得：
$J(\theta )=-(1/N-2m)\sum\limits_{i=m+1}^{N-m}{\prod\limits_{j\ne i\Lambda j=i-m}^{i+m}{logP({ {\omega }_{j}}|{ {\omega }_{i}})}}$
上式被称为“负对数似然”。