简介
题目:Improving Language Understanding by Generative Pre-Training
翻译:增强语言理解通过生成式预训练
点击下载pdf
概要:
自然语言理解包含很多问题:文本蕴含、问答、语义相似度评估、文献分类。大量的无标签文本语料库是丰富的,打标签语料库是匮乏的,分别去训练模型很难有良好效果。该论文证明了:先使用无标签语料库进行生成式预训练,再针对不同任务做微调,这样效果很好。
介绍
从无标记文本中学习文本表征是有意义的,就像之前的词嵌入预训练一样。现有的预训练方法存在的问题是:模型需要根据任务调整、复杂的学习方法、需辅助目标函数。总结:麻烦。
本文探索一种半监督方法用于语言理解任务:无监督预训练+有监督微调。
目标是学习一种普遍的表征,只需要很少的改变就可用于宽泛范围的任务。
模型是Transformer,对比RNN,Transformer优点是可建立文本的长依赖关系,对不同任务更加鲁棒。
验证实验使用四种任务:自然语言推断、问答、语义相似、文本分类
无监督预训练
训练数据是无标签的语料token:
GPT-1论文提出通过无监督预训练和有监督微调提高语言理解效果。模型基于Transformer,先在大量无标签文本上进行生成式预训练,然后在特定任务上微调。实验表明,这种方法在自然语言推断、问答、语义相似和文本分类等任务上表现出色。
订阅专栏 解锁全文
1138





