<论文>语言模型可以进行无监督的多任务学习?

一、摘要

        本文介绍2019年来自OpenAI的论文《Language Models are Unsupervised Multitask Learners》,也就是提出GPT2的论文。论文提出语言模型在无监督的情况下,通过大规模多样化数据集训练,能够执行多种自然语言处理任务,展现出零样本学习能力,在当时为LLM的发展提供了一个新方向。

264f065452824f64b7215f6803fa22d3.png

译文:

        自然语言处理任务,如问答、机器翻译、阅读理解和摘要,通常通过在任务特定的数据集上进行监督学习来解决。我们展示了当在一个包含数百万网页的新数据集WebText上进行训练时,语言模型开始在没有任何明确监督的情况下学习这些任务。当以文档加问题为条件时,语言模型生成的答案在CoQA数据集上达到了55的F1分数——在不使用127,000多个训练示例的情况下,匹配或超过了4个基线系统中的3个。语言模型的容量对于零样本任务迁移的成功至关重要,增加容量可以以对数线性方式提高各任务的性能。我们最大的模型GPT-2是一个具有15亿参数的Transformer,在零样本设置下,在8个测试的语言建模数据集中的7个上达到了最先进的结果,但仍然对WebText存在欠拟合。模型生成的样本反映了这些

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值