自然语言处理：word2vec 之Skip-Gram模型

空腹熊猫

于 2020-03-15 23:45:05 发布

阅读量656

点赞数

分类专栏：自然语言处理

原文链接：http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/

版权

自然语言处理专栏收录该内容

10 篇文章

订阅专栏

本文翻译自：《Word2Vec Tutorial - The Skip-Gram Model》

Word2vec 有两个经典模型，skip-gram（跳字模型）和CBOW（连续词袋模型），这里对前者进行讲解

模型

skip-gram神经网络模型的原始形式很简单，也许是细微调整和功能增强使其变得难以理解。

我们尝试深入观察，word2vec 使用了在其他机器学习中也可见到的技巧：我们将在一个特定任务中训练单隐层的神经网络，但是并不打算使用训练好的网络，而只是学习隐层的权重，这些权重就是所谓的“词向量”

相同的技巧也在无监督特征学习中出现，学习一个隐层的自动编码器来对输入进行压缩，在输出层对其解压复原输入。训练好后丢弃输出层只保留隐层，这种方法适合于训练没有标签的图像的特征。

非真实任务

现在讨论下即将用神经网络训练的“非真实”任务，然后再回来看下它如何间接输出我们想要的词向量

我们需要训练神经网络完成以下工作：

指定一句话的某个单词，随机选取附近的一个词，网络会告诉我们词典中每个词是输入单词的近邻的概率。

这里指的临近，对应算法中的的“窗口大小”，典型的大小是5，单词前面5个后面5个，共10个

输出的概率显示了词典中每个词和输入词的相关度。例如给训练好的网络输入“Soviet”，输出中“Union”和“Russia”的概率会比“watermelon”和“kangaroo”高得多。

我们将用样本数据中的单词对来训练神经网络。以下例子显示了从句子 “The quick brown fox jumps over the lazy dog.” 抽取出的部分训练样本，这里为了举例只采用了大小为2的窗口，蓝色高亮为输入单词。

单词the产生的单词对有（the，quick）、（the，brown），以此类推。

网络将从每个单词对出现的次数中学习出统计信息。所以网络更可能获得更多样本如：(“Soviet”, “Union”)，而不是(“Soviet”, “Sasquatch”)。

当训练结束后，当给网络输入“Soviet”时，输出是“Union”或“Russia”的概率会比“Sasquatch”更大。

更多细节

这其中是怎么表示的呢？

首先，不能直接将词作为文本输入神经网络，我们需要一种表示方式。我们先根据训练文档数据构建一个词典（10,000 个不同单词）。

我们将输入单词如“ants”表示未独热向量，该向量会有10,000个元素，每个元素表示词典中的一个单词。这样在“ant”的向量中，ant对应位置为1，其他位置为0.

网络输出也是10,000个元素的向量，每个元素表示对应单词出现在输入词旁边的概率

网络的架构如下图：

隐层单元没有激活函数，输入单元使用了softmax。

当用该网络训练单词对时，网络输入是表示实际输入单词的0-1独热向量，输出也是独热向量代表实际输出单词。但将训练好的网络应用于一个单词，输出变成了概率（浮点数）。

隐藏层

在本例子中，我们将学习300个特征的词向量。所以隐层的权重矩阵有10,000行（每行表示词典中的某个词） 300 列（每列表示一个隐层单元）

300特征数是google用于Google新闻数据集训练的参数（在google发布的模型中）可在here下载。这里的特征数300需要根据实际应用调整。这里权重矩阵的行就是我们想要的词向量

所以最终目标是学习隐层的权重矩阵，输出层在训练完后直接丢弃。

当用 1 x 10,000 的独热向量乘以 10,000 x 300 的矩阵，相当于选择了权重矩阵的第i行：

意味着隐层相当于查找表，隐层的输出就是输入词的词向量.

输出层

单词“ants” 的 1 x 300 词向量直接送往输出层，输出层是一个softmax分类器，关于softmax详见：here。输出层每个神经元会得到一个介于0-1的值，所有神经元的值之和为1 。

每个输出神经元都有一个权重向量，与隐层的词向量相乘，对结果使用exp(x)函数。

为了使输出和为1，将exp的值除以所有输出单元值之和。

神经网络并不知道输入单词和输出单词之间的相对位置，对于输入单词的前驱词和后继词，网络学习到的概率大致相同。

为理解其中的意义，如在我们训练的语料库中，单词“York”的每次出现前驱都是“New”，所以对于训练集而言，“New”在“York”附近的概率接近100%。然而当对“York”附近的10个词随机选一个，是“New”的概率并非100%，York附近可能出现其他单词。

直观理解

若两个不同的单词具有相似的上下文，word2vec模型对这两个词的输出会比较接近，这会在网络的输出中提现，它们的词向量也会比较接近。

相似的上下文，例如“intelligent”和“smart”可用于相似的语境中。或者相关的词语如“engine”和“transmission”

这也有助于词干判断，如“ant”和“ants”将有相似的词向量。

后续

skip-gram 神经网络的权重数量过多，本例中有300 特征和 10,000 个单词。3M 的权重。不建议在在大量样本中使用，所以word2vec 的作者介绍了两种调整是训练变得可行，详见：第二篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。