Efficient Estimation of Word Representations in Vector Space——论文阅读

**

摘要

**
论文提出了两种新的模型架构——CBOW, skip-gram,用于从非常大的数据集中计算单词的连续向量表示。在单词相似性任务中测量这些表征的质量,并且将结果与先前表现最佳的基于不同类型的神经网络技术进行比较。我们观察到,在低得多的计算成本下,准确度有了很大的提高。而且,这些向量为测试集提供了最好的性能,用于测量句法和语义词的相似性。
**

1. 简介:

**
当前很多自然语言处理系统和技术将单词视为原子单位——单词之间没有相似性的概念,因为它们在词汇表中都被表示为索引。这样做有几个很好的原因——简单性、健壮性,以及观察到在大量数据上训练的简单模型优于在较少数据上训练的复杂模型系统。一个例子是用于统计语言建模的比较流行的N-gram模型——今天,可以在几乎所有可用的数据(万亿字)上训练N-gram。
然而,简单的技术在许多任务中都有其局限性。例如,用于自动语音识别的相关领域内数据的数量是有限的——性能通常由高质量转录语音数据的大小(通常只有数百万字)决定。在机器翻译中,许多语言的现有语料库只包含几十亿或更少的单词。因此,在某些情况下,简单地扩大基本技术的规模不会带来任何显著的进步,我们必须关注更先进的技术。
随着近年来机器学习技术的进步,在更大的数据集上训练更复杂的模型已经成为可能,并且它们通常优于简单模型。也许最成功的概念是使用单词的分布式表示。例如,基于神经网络的语言模型明显优于N-gram模型。

1.1 论文的目标

本论文的主要目标是引进一种可以从有几十亿和数百万单词的庞大数据集中学习到高质量的词向量的技术。之前提出的架构都没有成功地训练过超过数亿个单词,单词向量的维数在50 - 100之间。
论文使用最近提出的技术来测量词向量表示的质量,还希望相似的单词可以彼此靠近,而且单词直接可以有不同程度的相似度(degree of similar)。这已经在早期的屈折语言中观察到——例如,名词可以有多个词尾,如果我们在原始向量空间的子空间中搜索相似的词,就有可能找到词尾相似的词[13,14]。
论文发现词表征的相似性超出了简单的句法规律。使用单词偏移技术(word offset technique)对单词向量进行简单的代数运算,例如,vector(“King”)- vector(“Man”)+ vector(“Woman”)得到一个最接近单词Queen的向量表示的向量。
开发新的模型架构来保持单词之间的线性规律,以最大限度地提高这些向量运算的准确性。我们设计了一个新的综合测试集来衡量语法和语义规则,并表明许多这样的规则可以学习的高精度。此外,我们讨论了训练时间和准确性如何依赖于字向量的维数和训练数据的数量。
论文试图用新的模型来维持单词之间的线性规律,以最大限度地提高这些向量运算的准确性。论文设计了一个综合试集来衡量语法和语义规则。而且这些规则可以学习得很好,另外,我们讨论了训练时间和准确率与词向量的维度和训练数据数量之间的关系。
**

1.2 先前的工作

**
将单词表示为连续向量表示已经有很长的历史了,提出了一个用来评估神经网络语言模型(NNLM)的流行框架,该框架使用了前馈神经网络,有一个线性投影层和一个非线性隐藏层,用来学习词向量表示和统计语言模型。
NNLM的另一个框架中,词向量是使用带有单个隐藏层的网络学到的,这些词向量用来训练NNLM,而且不需要构建整个NNLM就可以学习到,在这个工作中,我们扩展了这个结构,并且关注于使用简单模型获得词向量。
后来发现词向量可以简化和提高一些NLP应用。使用不同的模型架构对词向量本身进行估计,并在不同的语料库上进行训练,得到的部分词向量可用于将来的研究和比较。但是,据目前所知,这些模型的训练代成本还是比较大的。

2. 模型结构

用来估计词的连续表示的模型有很多,比如潜在语义分析(Latent Semantic Analysis,LSA),潜在狄雷特分布(Latent Dirichlet Allocation,LDA),论文中主要关注由神经网络获得的词向量。 因为之前已经表明,在保留单词之间的线性规律方面,神经网络的表现明显优于潜在语义分析(Latent Semantic Analysis,LSA)。此外,潜在狄雷特分布(Latent Dirichlet Allocation,LDA)在大型数据集上的计算开销非常大。
比较模型的差异,首先是计算复杂度(训练模型所需要的参数),然后是最大化正确率,同时最小化计算复杂度。
下面所有的模型的训练复杂度是:
O = E × T × Q , (1)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值