Finetuned Language Models Are Zero-Shot Learners

本文提出指令微调方法,通过在多样化的自然语言指令上微调137B参数的模型,显著提高了其在未见NLP任务的零样本性能。FLAN模型在多项任务上超越了零样本和少量样本的GPT-3,证明了指令微调的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Abstract

本文探索了一种简单的方法来提升语言模型的零样本(zero-shot)学习能力。我们发现 指令微调(instruction tuning) 显著提高了未见任务的零样本性能。

  • 指令微调:即在一组通过指令描述的数据集上对模型进行微调

我们对一个 137B 参数的预训练模型在 60 个 NLP 任务上进行指令微调。这些任务通过自然语言指令模板进行表述。我们将指令微调后的模型称为 FLAN。

我们在未见任务上进行评估,发现

  • FLAN 显著好于微调前的版本
  • 在 20/25 个任务上超过 zero-shot 175B GPT-3
  • FLAN 在 ANLI, RTE, BoolQ, AI2-ARC, OpenbookQA, StoryCloze 等任务上甚至超时 few-shot GPT-3

消融实验显示,微调数据集的大小、模型的规模、自然语言指令都是指令微调成功的关键。

1 INTRODUCTION

GPT-3 为代表的大语言模型在 few-shot 情况表现很好,但是在 zero-shot 上效果差多了。一个可能的原因是在没有 few-shot 样本时,模型很难在与预训练数据格式不相似的 Prompt 上表现良好。

针对以上问题,本文利用了 NLP 任务可以使用自然

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值