一、摘要
本文介绍2019年来自OpenAI的论文《Language Models are Unsupervised Multitask Learners》,也就是提出GPT2的论文。论文提出语言模型在无监督的情况下,通过大规模多样化数据集训练,能够执行多种自然语言处理任务,展现出零样本学习能力,在当时为LLM的发展提供了一个新方向。
译文:
自然语言处理任务,如问答、机器翻译、阅读理解和摘要,通常通过在任务特定的数据集上进行监督学习来解决。我们展示了当在一个包含数百万网页的新数据集WebText上进行训练时,语言模型开始在没有任何明确监督的情况下学习这些任务。当以文档加问题为条件时,语言模型生成的答案在CoQA数据集上达到了55的F1分数——在不使用127,000多个训练示例的情况下,匹配或超过了4个基线系统中的3个。语言模型的容量对于零样本任务迁移的成功至关重要,增加容量可以以对数线性方式提高各任务的性能。我们最大的模型GPT-2是一个具有15亿参数的Transformer,在零样本设置下,在8个测试的语言建模数据集中的7个上达到了最先进的结果,但仍然对WebText存在欠拟合。模型生成的样本反映了这些