自然语言处理:word2vec 之Skip-Gram模型

本文翻译自:《Word2Vec Tutorial - The Skip-Gram Model》

Word2vec 有两个经典模型,skip-gram(跳字模型)和CBOW(连续词袋模型),这里对前者进行讲解

模型

skip-gram神经网络模型的原始形式很简单,也许是细微调整和功能增强使其变得难以理解。

我们尝试深入观察,word2vec 使用了在其他机器学习中也可见到的技巧:我们将在一个特定任务中训练单隐层的神经网络,但是并不打算使用训练好的网络,而只是学习隐层的权重,这些权重就是所谓的“词向量”

相同的技巧也在无监督特征学习中出现,学习一个隐层的自动编码器来对输入进行压缩,在输出层对其解压复原输入。训练好后丢弃输出层只保留隐层,这种方法适合于训练没有标签的图像的特征。

 

非真实任务

现在讨论下即将用神经网络训练的“非真实”任务,然后再回来看下它如何间接输出我们想要的词向量 

我们需要训练神经网络完成以下工作:

  • 指定一句话的某个单词,随机选取附近的一个词,网络会告诉我们词典中每个词是输入单词的近邻的概率。

这里指的临近,对应算法中的的“窗口大小”,典型的大小是5,单词前面5个后面5个,共10个

输出的概率显示了词典中每个词和输入词的相关度。例如给训练好的网络输入“Soviet”,输出中“Union”和“Russia”的概率会比“watermelon”和“kangaroo”高得多。

我们将用样本数据中的单词对来训练神经网络。以下例子显示了从句子 “The quick brown fox jumps over the lazy dog.” 抽取出的部分训练样本,这里为了举例只采用了大小为2的窗口,蓝色高亮为输入单词。

单词the产生的单词对有(the,quick)、(the,brown),以此类推。

网络将从每个单词对出现的次数中学习出统计信息。所以网络更可能获得更多样本如:(“Soviet”, “Union”),而不是(“Soviet”, “Sasquatch”)。

当训练结束后,当给网络输入“Soviet”时,输出是“Union”或“Russia”的概率会比“Sasquatch”更大。

 

更多细节

这其中是怎么表示的呢?

首先,不能直接将词作为文本输入神经网络,我们需要一种表示方式。我们先根据训练文档数据构建一个词典(10,000 个不同单词)。

我们将输入单词如“ants”表示未独热向量,该向量会有10,000个元素,每个元素表示词典中的一个单词。这样在“ant”的向量中,ant对应位置为1,其他位置为0.

网络输出也是10,000个元素的向量,每个元素表示对应单词出现在输入词旁边的概率

网络的架构如下图:

隐层单元没有激活函数,输入单元使用了softmax。

当用该网络训练单词对时,网络输入是表示实际输入单词的0-1独热向量,输出也是独热向量代表实际输出单词。但将训练好的网络应用于一个单词,输出变成了概率(浮点数)。

 

隐藏层

在本例子中,我们将学习300个特征的词向量。所以隐层的权重矩阵有10,000行(每行表示词典中的某个词) 300 列(每列表示一个隐层单元)

300特征数是google用于Google新闻数据集训练的参数(在google发布的模型中)可在here下载。这里的特征数300需要根据实际应用调整。这里权重矩阵的行就是我们想要的词向量

所以最终目标是学习隐层的权重矩阵,输出层在训练完后直接丢弃。

当用 1 x 10,000 的独热向量乘以 10,000 x 300 的矩阵,相当于选择了权重矩阵的第i行:

意味着隐层相当于查找表,隐层的输出就是输入词的词向量.

 

输出层

单词“ants” 的 1 x 300 词向量直接送往输出层,输出层是一个softmax分类器,关于softmax详见:here。输出层每个神经元会得到一个介于0-1的值,所有神经元的值之和为1 。

每个输出神经元都有一个权重向量,与隐层的词向量相乘,对结果使用exp(x)函数。

为了使输出和为1,将exp的值除以所有输出单元值之和。

神经网络并不知道输入单词和输出单词之间的相对位置,对于输入单词的前驱词和后继词,网络学习到的概率大致相同。

为理解其中的意义,如在我们训练的语料库中,单词“York”的每次出现前驱都是“New”,所以对于训练集而言,“New”在“York”附近的概率接近100%。然而当对“York”附近的10个词随机选一个,是“New”的概率并非100%,York附近可能出现其他单词。

 

直观理解

若两个不同的单词具有相似的上下文,word2vec模型对这两个词的输出会比较接近,这会在网络的输出中提现,它们的词向量也会比较接近。

相似的上下文,例如“intelligent”和“smart”可用于相似的语境中。或者相关的词语 如“engine”和“transmission”

这也有助于词干判断,如“ant”和“ants”将有相似的词向量。

 

后续

skip-gram 神经网络的权重数量过多,本例中有300 特征和 10,000 个单词。3M 的权重。 不建议在在大量样本中使用,所以word2vec 的作者介绍了两种调整是训练变得可行,详见:第二篇

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值