预训练语言模型（四）：ELMo模型

最新推荐文章于 2025-03-06 15:10:30 发布

Dream_Poem

最新推荐文章于 2025-03-06 15:10:30 发布

阅读量5.8k

点赞数 6

文章标签：语言模型自然语言处理深度学习

本文链接：https://blog.youkuaiyun.com/Dream_Poem/article/details/122768058

版权

参考一个很全的总结：
预训练语言模型的前世今生 - 从Word Embedding到BERT
ELMo也参考了这个：
【NLP-13】ELMo模型（Embeddings from Language Models）

这里提出的一个新的问题是：Word2Vec通过大规模语料对每个单词训练出固定词向量，但没有办法解决多义词的问题，ELMo就是为了这个任务而诞生的。它的核心是给予了每个token一个Word Embedding，即每个句子中样貌相同的词汇也会有不同的Embedding。
这里其实就用到了迁移学习的思想，使用了在大规模语料库上训练好的Word Embedding，输入ELMo模型中进行Fine-Tuning，这里ELMo模型的训练数据是去除标签的，可以根据上下文信息学习到当前语境下的Word Embedding。

ELMo模型

模型结构

使用了双向LSTM，根据上下文预测单词。
ELMo采用了两阶段过程：
第一个阶段是使用语言模型进行预训练
第二个阶段是在下游应用时，从预训练网络中提取对应单词网络歌城的Word Embedding作为新特征补充到下游任务中。
训练好这个网络之后，每输入一个新的句子都能得到三个Embedding：

单词的Word Embedding；
第一层双向LSTM，包含更多的句法信息；
第二层双向LSTM，包含更多的语义信息。

下游应用：

这样对于下游任务：

将句子 $X$ 输入ELMo网络中，这样句子 $X$ 中每个单词在ELMo网络中都能获得对应的三个Embedding；
之后赋予每个Embedding一个权重a，这个权重可以由学习得来，根据权重求和之后将三个Embedding整合为一个；
将整合后的Embedding作为相应的单词输入，作为新特征给下游任务使用；

这一类的训练方法也叫作“Feature-based Pre-Training”。

公式

前向表示：
$p(t_1,t_2,…,t_N)=\prod_{k=1}^Np(t_k|t_1,t_2,…,t_{k-1})$
后向表示：
$p(t_1,t_2,…,t_N)=\prod_{k=1}^Np(t_k|t_{k+1},t_{k+2},…,t_{N})$
biLM训练目标是最大化对数似然：
$\sum_{k=1}^N(\log p(t_k|t_1,…,t_{k-1},\Theta_x,\overrightarrow\Theta_{LSTM},\Theta_s)+\log p(t_k|t_{k+1},t_{k+2},…,t_{N},\Theta_x,\overleftarrow\Theta_{LSTM},\Theta_s))$
由于ELMo模型使每一层的向量都使用，因此通过一个L层的网络会产生2L+1个表征（每一层双向两个向量，初始输入一个向量，共有3个）
$\begin{aligned} R_k&=\{\mathbf x^{LM}_k,\overrightarrow h^{LM}_{k,j},\overleftarrow h^{LM}_{k,j} |j=1,…,L \}\\ &=\{\mathbf{h}^{LM}_{k,j} |j=0,…,L \} \end{aligned}$
k表示单词位置，j表示所在层，j=0表示输入层，所以上式中的 $\mathbf x^{LM}_k=\mathbf{h}^{LM}_{k,j}$
下游任务会将 $R_k$ 压缩为一个向量：
$\begin{aligned} ELMo^{task}_k &=E(R_k;\Theta^{task})\\ &=\gamma^{task}\sum_{j=0}^Ls_j^{task}\mathbf{h}^{LM}_{k,j} \end{aligned}$
其中 $s_j^{task}$ 是softmax标准化权重， $\gamma^{task}$ 是缩放系数，允许任务模型缩放整个ELMo向量。

这样通过不同表征的权重分配，就可以实现通过上下文区分多义词了。