简介
2018年3月份,ELMo出世,该paper是NAACL18 Best Paper。词向量在目前NLP技术发展和应用中具有重要作用,高质量的词向量对下游任务的效果至关重要。在之前2013年的word2vec及2014年的GloVe的工作中,每个词对应一个vector,对于多义词无能为力。但现实场景中,同样的词在不同语境中往往表达不同的含义。ELMo的工作对于此,提出了一个较好的解决方案。不同于以往的一个词对应一个向量,是固定的。在ELMo世界里,预训练好的模型不再只是向量对应关系,而是一个训练好的模型。使用时,将一句话或一段话输入模型,模型会根据上线文来推断每个词对应的词向量。这样做之后明显的好处之一就是对于多义词,可以结合前后语境对多义词进行理解。比如apple,可以根据前后文语境理解为公司或水果。
作者引进一种新型的深层语境词表示模型——ELMo(Embeddings from Language Models)模型,从缩写就可以看出模型本质是从语言模型而来的,它是一种动态的、语境化的词向量表示方法,可以根据上下文语境来生成相应词的向量表示。ELMo通过深度双向语言模型(biLM)进行训练,主要解决了两个问题:
(1) 学习词汇用法的复杂特性,如语法和语义;
(2) 学习词汇不同语境下的,一词多义性。
ELMo词向量表示理念
与传统词向量用固定向量的表示不同,ELMo是一种动态词向量表示方法,其最终训练得到一个语言模型。当需要文本s中某个词w的词向量表示时,ELMo通过将s作为输入,得到文本的向量表示,继而获得词w在文本s语境下的词向量表示。
ELMo模型从大规模语料上训练得到的深度双向语言模型(deep biLM)的内部状态学习得到,因此,ELMo的词向量表示是深度的,是biLM内部各层状态的线性组合,而非仅仅取LSTM的最后一层。
ELMo理念的物理意义
ELMo认为,通过联合biLM的各层内部状态来表示词向量可以表达词语更为丰富的信息,模型底层隐状态表达词语的语法信息(eg:适用于词性标注任务),而上层隐状态则捕捉了词语的语义信息(eg:适用于词义消歧任务)。
大量实验证明,ELMo在多种NLP任务中都获得极好的效果;另外,前人的工作以及论文最后对ELMo与GoVe的分析则证明,词向量的深度表示比仅利用LSTM的最后一层的效果更好
要点:
这个词向量是一个深度双向语言模型(biLM)内部状态的学习函数
暴露预训练网络的深层内部是至关重要的,允许下游模型混合不同类型的半监督信号。
相关工作:
针对传统词向量是固定的,与上下文语境无关的缺点,先前的工作多通过两种方式来解决:
(1) 通过引入字符级(subword)信息丰富词向量表达;
(2) 学习每个单词不同含义的独立向量;
ELMo也利用了字符卷积(Character-Convolutions)引入字符级信息,并同时结合了深度双向语言模型的各层隐状态来丰富词向量表达。
双向语言模型:
给定N个tokens (t_1,t_2,…,t_N), language model通过给定前面的k-1个位置的token序列计算第k个token的出现的概率:

ELMo,一种深度语境词表示模型,于2018年由NAACL颁发最佳论文奖。该模型通过深度双向语言模型(biLM)训练,解决传统词向量无法应对多义词的问题,为词向量表示引入上下文敏感性。ELMo模型不仅学习词汇的语法和语义特性,还能理解词汇在不同语境下的含义。
最低0.47元/天 解锁文章
8万+

被折叠的 条评论
为什么被折叠?



