ELMo模型解读

最新推荐文章于 2025-07-29 09:13:58 发布

原创

最新推荐文章于 2025-07-29 09:13:58 发布 · 9.5k 阅读

23 ·

CC 4.0 BY-SA版权

本文详细解析了ELMo模型的架构，包括字符嵌入、BiLSTM、残差连接和动态词向量的生成。重点介绍了如何通过静态RNN训练共享参数，然后利用动态RNN计算上下文相关的词向量，以及在实际应用中如何选择不同层的词向量组合。

在反复的看了ELMo源码和参考网上各路大神的经验之后，终于对ELMo的架构有了比较清楚的认识。总结一下自己对ELMo的理解，其实还有很多细节没有搞清楚。

一.模型架构

下面是我画的一个架构简图，对于ELMo不管你输入的是词还是字符，它都会以字符的单位进行后续的字符卷积，对与词的索引是根据词典序号索引的，而字符论文说英文的字符加上一些特殊的标记字符总共不会超过262个，所以对字符的索引是通过utf-8编码来索引的，比如单词“word"的utf-8编码是{119,111,114,100},通过这些编码就可以找到某一个固定的字符。对于整个模型的输入（这里只考虑最小单位的输入，也就是模型的每一个样本）的话由于是语言模型，而作者在train_elmo文件中定义的时间步（unroll_steps)是20，也就是一个样本就是X=20个词，对应的Y=20个对应的下一个词。这就是我们之前常说的一个样本X:Y。

在得到我们的样本之后，初始化一个262*16的字符嵌入矩阵（或者二维数组）,这个16就是每一个字符向量的纬度可以自己定义，通过索引可以找到每个词对应字符的向量，然后进行字符卷积，这其中包括最池化，然后在经过2个highway layers。进入BiLSTM。这一层总共有20个LSTMCell,分别对应20个词的向量的输入，论文中的4096也就是源码中的lstm_dim其实就是隐藏层最原始的h,c的纬度。或者说就是单个LSTMCell里面单个门的sigmoid单元的个数，这个参数其实就是tensorflow中tf.nn.rnn_cell.LSTMCell（num_units）中的第一个参数。注意不同地方的命名不一样，非常容易混淆。源码中的名字也换了好几次。

两层LSTM之间还有一个残差连接，其实就是把第一层LSTM的输入加到LSTM的输出上。

最后就是一个softmax，但是这个用的是Sampled_softmax,这个我开始读源码的时候并没有注意到，知道看到n_negtive_samples_ba

最低0.47元/天解锁文章

6 条评论

pxk8001 2020.09.11
你好，查看官方的使用案例，使用dump_bilm_embeddings()生成的hdf5文件，读出来每一条数据都是（3,sentence_length,自定义的维度官方的是1024）官方说明这个是对应的sentence embedding。想问下，得到的这个embedding如何应用到下游的如文本分类等具体任务。
- firesodier回复pxk8001 2020.09.16
  额，现在不是都用bert了吗，elmo例子github上有的
- pxk8001回复firesodier 2020.09.16
  [reply]firesolider[/reply]您好，不知道您是否有具体的例子参考一下。不是很理解你说的用法。
- firesodier回复pxk8001 2020.09.12
  [reply]pxk8001[/reply]您好谢谢评论，elmo和bert还有word2vec都是语言模型，语言模型可以学习到更好的词向量的表示，正如您所提到的，这3层向量由一层是与上下文无关的向量，这个也是模型中BiLSTM的输入，另外两层的向量是lstm的输出，这三层词向量代表不同层次的语义，如果要进行文本分类的话，可以直接使用这三个词向量的任何一个直接对句子maxpool或者meanpool,或者为每组词向量赋予一个可学习的权重进行组合sum，由于elmo预训练足够强大的话后面不需要接很复杂的网络,或者接个简单的cnn，其实elmo得到的词向量和word2vec一样使用，只是elmo词向量根据具体的语境生成的