语言模型与自编码器、生成对抗网络的前沿探索
1. 语言模型的创新进展
2018 年被称为“NLP 的 ImageNet 时刻”,LSTM 和基于 Transformer 的架构在大型数据集上训练,取得了显著进展。以下是该时期一些重要的创新成果:
- ELMo :引入了基于语言模型的嵌入(Embeddings from Language Models,ELMo),这是从深度双向语言模型的内部状态学习到的上下文相关词嵌入。例如,“queen”在“Queen of the United Kingdom”和“queen bee”中的嵌入是不同的。
- ULMFiT :作者使用自监督学习在大型文本语料库上训练 LSTM 语言模型,然后在各种任务上进行微调。该模型在六个文本分类任务上大幅超越了现有技术水平,在大多数情况下将错误率降低了 18 - 24%。此外,通过仅在 100 个标记示例上微调预训练模型,就可以达到在 10,000 个示例上从头开始训练的模型的相同性能。
- GPT :使用类似 Transformer 的架构,通过自监督学习在大型数据集上进行预训练,然后在各种语言任务上进行微调。这些任务包括文本分类、蕴含关系判断、相似度计算和问答等。几个月后推出的 GPT - 2 架构更大(拥有超过 15 亿个参数),并且在许多任务上无需微调就能取得良好性能,实现了零样本学习(Zero - Shot Learning,ZSL)。一个较小版本(“仅”有 1.17 亿个参数)的 GPT - 2 模型及其预训练权重可在 https://github.com/openai/gpt - 2 上获取。
语言模型与生成模型前沿探析
超级会员免费看
订阅专栏 解锁全文
1099

被折叠的 条评论
为什么被折叠?



