ELMo模型

最新推荐文章于 2024-11-15 10:03:03 发布

原创最新推荐文章于 2024-11-15 10:03:03 发布 · 399 阅读

1 ·

CC 4.0 BY-SA版权

NLP 专栏收录该内容

37 篇文章

订阅专栏

论文地址：
https://arxiv.org/abs/1802.05365

前言

在之前2013年的word2vec及2014年的GloVe的工作中，每个词对应一个vector，对于多义词无能为力。ELMo的工作对于此，提出了一个较好的解决方案。不同于以往的一个词对应一个向量，是固定的。在ELMo世界里，预训练好的模型不再只是向量对应关系，而是一个训练好的模型。使用时，将一句话或一段话输入模型，模型会根据上线文来推断每个词对应的词向量。这样做之后明显的好处之一就是对于多义词，可以结合前后语境对多义词进行理解。比如appele，可以根据前后文语境理解为公司或水果。

ELMO的本质思想是：事先用语言模型在一个大的语料库上学习好词的word embedding，但此时的多义词仍然无法区分，不过没关系，我们接着用我们的训练数据（去除标签）来fine-tuning 预训练好的ELMO 模型。作者将这种称为domain transfer。这样利用我们训练数据的上下文信息就可以获得词在当前语境下的word embedding。

模型结构

ELMO 基于语言模型的，确切的来说是一个 Bidirectional language models，也是一个 Bidirectional LSTM结构。我们要做的是给定一个含有N个tokens的序列：

${t_1, t_2, ..., t_N}$

其前向表示为：

$p(t1,t2...tN)=∏k=1Np(tk∣t1,t2...tk−1)p(t_1, t_2...t_N)= \prod^N_{k=1} p(t_k|t_1, t_2...t_{k-1})$

反向表示为：

$p(t1,t2...tN)=∏k=1Np(tk∣tk+1,tk+2...tN)p(t_1, t_2...t_N)= \prod^N_{k=1} p(t_k|t_{k+1}, t_{k+2}...t_N)$

从上面的联合概率来看是一个典型的语言模型，前向利用上文来预测下文，后向利用下文来预测上文。假设输入的token是 $x_k^{LM}$ ，在每一个位置 k ，每一层LSTM 上都输出相应的context-dependent的表征 $h→k,jLM\overrightarrow{h}_{k, j}^{LM}$ 。这里 $j = 1, 2, . . ., L$ ， L表示LSTM的层数。顶层的LSTM 输出 $h→k,LLM\overrightarrow{h}_{k, L}^{LM}$ ，通过softmax层来预测下一个 $token_{k+1}$ 。

对数似然函数表示如下：

$∑k=1N(logp(tk∣t1,t2...tk−1;Θx,Θ→LSTM,Θs)+logp(tk∣tk+1,tk+2...tN;Θx,Θ←LSTM,Θs))\sum^N_{k=1}(log p(t_k|t_1, t_2...t_{k-1};\Theta_x, \overrightarrow{\Theta}_{LSTM},\Theta_s) + log p(t_k|t_{k+1}, t_{k+2}...t_N;\Theta_x, \overleftarrow{\Theta}_{LSTM},\Theta_s))$

模型的结构图如下：

在这里插入图片描述

ELMO 模型不同于之前的其他模型只用最后一层的输出值来作为word embedding的值，而是用所有层的输出值的线性组合来表示word embedding的值。

对于每个token，一个L层的biLM要计算出 2L+1 个表征：

$Rk={xkLM,h→k,jLM,h←k,jLM∣j=1...L}={hk,jLM∣j=0,1...L}R_k=\{x^{LM}_k, \overrightarrow{h}_{k, j}^{LM},\overleftarrow{h}_{k, j}^{LM}|j=1...L \} \\ =\{ h_{k, j}^{LM}|j=0,1...L \}$