【AI理论学习】语言模型：从Word Embedding到ELMo

镰刀韭菜

于 2023-09-03 23:00:00 发布

阅读量877

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习与机器学习文章标签：人工智能语言模型自然语言处理 ELMo Word Embedding LSTM Bi-LM

本文链接：https://blog.youkuaiyun.com/ARPOSPF/article/details/125559804

深度学习与机器学习专栏收录该内容

103 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

ELMo是一种深度上下文化的词表示方法，通过预训练的双向语言模型动态调整单词的词嵌入，解决多义词问题。它首先将输入转化为字符级别的Embedding，再通过Bi-LM生成上下文相关的Word Embedding。模型包含字符编码层、Highway Net、线性投影层和混合层，其中Bi-LM是两个独立训练的LM模型的串联，不同于Bi-LSTM。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文主要介绍一种建立在LSTM基础上的ELMo预训练模型。2013年的Word2Vec及2014年的GloVe的工作中，每个词对应一个vector，对于多义词无能为力。ELMo的工作对于此，提出了一个较好的解决方案。不同于以往的一个词对应一个向量，是固定的。 在ELMo世界里，预训练好的模型不再只是向量对应关系，而是一个训练好的模型。使用时， 将一句话或一段话输入模型，模型会根据上线文来推断每个词对应的词向量。这样做之后明显的好处之一就是对于多义词，可以结合前后语境对多义词进行理解。比如apple，可以根据前后文语境理解为苹果公司或一种水果。可以说，ELMo的提出意味着从词嵌入（Word Embedding）时代进入了语境词嵌入（Contextualized Word-Embedding）时代。

ELMo原理

ELMo来自论文Deep contextualized word representations，它是”Embeddings from Language Models“的简称。从论文题目看，ELMo的核心思想主要体现在深度上下文（Deep Contextualized ）上。与静态的词嵌入不同，ELMo除提供临时词嵌入之外，还提供生成这些词嵌入的预训练模型，所以在实际使用时，