ELMo论文阅读
一、背景
词向量、自然语言表示是自然语言处理任务中的一个重要工具,从最初使用 one-hot 编码到后来基于 Word2Vec 生成词向量,再进入预训练时代,通过预训练模型生成动态预训练词向量,词向量的优化往往能够给 NLP 任务带来质的飞跃。目前,词向量的主流方式是通过预训练模型生成动态预训练词向量,该种方法生成的词向量能够表示文本深层语义,同时能够有效区分多义词,显著优于原始的词袋模型与以 Word2Vec 为代表的静态词向量。
动态预训练词向量的诞生以 ELMo 模型作为里程碑,2018年,Matthew 等人在 NLP 领域顶级会议 NAACL 上发表了《Deep contextualized word representations》,正式提出 ELMo 模型,引入了动态词向量、预训练+微调、双向 LSTM 计算等多种思想,组合形成了里程碑式的模型 ELMo。后来诞生的众多预训练模型如 GPT、BERT、XLNet 等都在一定程度上借鉴了 ELMo 的思路,目前该模型也仍旧在众多 NLP 任务中被使用。
本文主要阅读并总结了 ELMo 论文《Deep contextualized word representations》,对该论文提出的 ELMo 模型做了一个大致介绍。
二、目的
在 ELMo 提出之前,学界主流的词向量表示是以 Word2Vec 为代表的静态词向量,该类词向量通过大量语料数据进行预训练生成,对每个 token 赋予一个向量值,实现了多重词义相似度,解决了维度灾难问题,在多种 NLP 下游任务中得到应用。关于 Word2Vec 的论文解读,可见博客:Word2Vec原论文阅读_西南小游侠的博客-优快云博客。
但是,静态词向量还存在一些问题,在本文中,作者提出理想的词向量表示

ELMo是2018年提出的一种深度上下文化的词向量表示,通过预训练和双向LSTM解决了静态词向量的一词多义问题,提高了NLP任务的性能。它引入了动态词向量和预训练微调的概念,对后来的GPT、BERT等模型产生了影响。ELMo使用字符级卷积和多层Bi-LSTM来捕捉单词的上下文依赖和语法、语义信息。
最低0.47元/天 解锁文章
1676





