Word2Vec原论文阅读

本文详细介绍了Word2Vec模型的起源及其在解决词义相似度和计算复杂度问题上的贡献。Word2Vec通过CBOW和Skip-gram任务简化了神经网络语言模型,降低了计算复杂度,提升了大规模文本数据的处理效率。模型通过词向量的运算能够体现词义的相似性和语法关系,为后续的自然语言处理任务提供了有效的预训练表示。此外,文章还讨论了模型的计算复杂度,对比了NNLM模型,展示了Word2Vec在时间和性能上的优势。

Word2Vec原论文阅读

一、背景

​ Word2Vec 是自然语言处理、文本表示学习的典型模型,首次提出了 CBOW、Skip-gram 等目前仍在沿用的词向量学习思想,也是除了预训练模型生成词向量之外,最具有代表性的神经网络词向量模型。直至目前,基于 Word2Vec 生成的词向量仍然在很多自然语言处理任务中得到使用。理解 Word2Vec 模型,对理解文本表示学习、词向量训练具有重要的意义。

​ Word2Vec 模型首次在2013年被 Tomas Mikolov 等人在《Efficient Estimation of Word Representations in Vector Space》论文被提出,该论文发表在深度学习领域顶会 ICLR。但是,该论文并没有详细描述 Word2Vec 的模型细节,重点在于讨论现有 NNLM 模型(神经网络语言模型)的时间复杂度,并从减少训练时间复杂度的角度出发提出了 CBOW 和 Skip-gram 思想。在此之后,Xin Rong 于2017年发表了论文《word2vec Parameter Learning Explained》,详细介绍了 Word2Vec 模型的内部机理和参数训练过程。

​ 本文主要阅读并总结了 Word2Vec 原始论文《Efficient Estimation of Word Representations in Vector Space》,对该论文及其提出的 Word2Vec 模型进行了一个大致介绍,将在之后详细阅读并总结论文《word2vec Parameter Learning Explained》。

二、目的

​ 在 Word2Vec 提出之前,主流的词向量表示法包括 one-hot 编码、词袋模型、N-gram 语言模型、NNLM 模型等,但上述模型存在两个共性问题:

​ ① 词义相似度。不同词的词义一定有远近之分,例如 Queen 与 Women 的相似度一定大于同 Men 的相似度,理想的词向量应当能够表示这种词义相似度。

​ ② 维度灾难。非神经网络模型存在的共同问题是词向量维度同词表大小正相关,词表扩张会带来词向量空间占用的倍增,而 NNLM 模型的计算复杂度也非常高。

​ 针对以上两个问题,该论文提出了 Word2Vec 模型,分别在一定程度上解决了上述两个问题:

​ ① 词义相似度。针对该问题,Tomas Mikolov 提出了词义相似度的判断标准,即词向量满足什么条件下视作能够反映词义相似度:通过向量间的运算能够找到指定条件的最近义词。同时,进一步提出了多种词义相似度,包括语义相似(例如 France 与 Italy 的相似)和语法相似(例如 Bigger 与 Smaller 的相似)。基于提出的多种相似度,构建了一个测试集及评测标准。

​ ② 降低复杂度。针对该问题,作者采用了先使用简单模型训练词向量,进而使用词向量加入到下游任务训练的思想,去掉了 NNLM 的隐藏层来使用一个简单模型生成词向量,极大地减小了计算复杂度以使其能应用在大规模数据集上。

三、具体模型

​ 本文搭建的具体模型是在 NNLM 模型的基础上去掉隐藏层,分别基于 CBOW 和 Skip-Gram 两种任务实现的。

​ NNLM 模型的结构放在当下并不算复杂,就是非常典型的前馈神经网络:

在这里插入图片描述

​ 和目前主流的概念不同的是,在 NNLM 论文中,将该网络分成了四层:输入层、投影层、隐藏层与输出层,其中的投影层是目前较为少见的概念,其实可以看作是隐藏层的第一层,用于将 one-hot 向量映射到低维稠密向量空间中。其主要是基于一个共享参数矩阵 P(D * V 维,其中 D 为设定的词向量维度,V 为词表大小),在投影层计算:
OutputD×1=PD×V×InputV×1 Output_{D\times1} = P_{D\times V} \times Input_{V\times1} OutputD×1=PD×<

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值