语言模型创新与自编码器、GANs技术解析
1. 语言模型的近期创新
2018 年被称为“自然语言处理(NLP)的 ImageNet 时刻”,这一年在 NLP 领域取得了惊人的进展,基于长短期记忆网络(LSTM)和 Transformer 的架构在大规模数据集上进行训练。以下是 2018 年发表的几篇重要论文:
- ELMo 论文 :Matthew Peters 引入了基于语言模型的嵌入(ELMo),这是一种从深度双向语言模型的内部状态学习到的上下文相关词嵌入。例如,“queen”在“Queen of the United Kingdom”和“queen bee”中的嵌入是不同的。
- ULMFiT 论文 :Jeremy Howard 和 Sebastian Ruder 展示了无监督预训练在 NLP 任务中的有效性。他们使用自监督学习在一个巨大的文本语料库上训练 LSTM 语言模型,然后在各种任务上进行微调。该模型在六个文本分类任务上大幅超越了现有技术水平,在大多数情况下将错误率降低了 18 - 24%。此外,通过在仅 100 个标记示例上微调预训练模型,就能达到在 10,000 个示例上从头开始训练的模型的性能。
- GPT 论文 :Alec Radford 等 OpenAI 研究人员同样证明了无监督预训练的有效性,这次使用了类似 Transformer 的架构。他们在大型数据集上预训练了一个由 12 个 Transformer 模块组成的相对简单的架构(仅使用掩码多头注意力层),再次采用自监督学习。然后在各种语言任务上进行微调,每个任务只需进行少量调整。这些任务非常多样化,包
超级会员免费看
订阅专栏 解锁全文
813

被折叠的 条评论
为什么被折叠?



