大模型(LLMs)LLM生成SFT数据方法面

一、SFT数据集如何生成?

SFT数据集构建通常有两种方法:人工标注和使用LLM(比如GPT-4)来生成的,人工标注对于构 建垂直领域比较合适,可以减少有偏数据,但是成本略高;使用LLM生成,可以在短时间内生成大 量数据。 SFT数据集构建以及SFT微调Pipeline如下图所示:

二、Self-Instruct

2.1 什么是 Self-Instruct

 

SELF-INSTRUCT,一个通过引导自己的生成来提高预训练语言模型指令跟从能力的框架。 其流水线从生成指令、输入和输出语言模型的样本、过滤掉无效或相似的样本、到最后微调原始模型。 应用于普通 GPT3,证明在SUPER-NATURALINSTRUCTIONS上比原始模型有 33% 的绝对改进,与使用私人用户数据和人工注释进行训练的 InstructGPT00的性能相当。

为了进一步评估,为新任务策划了一组专家编写的指令,并通过人工评估表明,使用 SELF-INSTRUCT 调整 GPT3 的性能大幅优于现有公共指令数据集,仅与 InstructGPT001 相比有 5% 的绝对差距。 SELF-INSTRUCT 提供了一种几乎无需标注的方法,用于将预训练语言模型与指令对齐,并且发布了大型综合数据集以促进未来指令调优的研究。

2.2 Self-Instruct 处理思路?
  • 步骤1:作者从 175个种子任务中随机抽取 8
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值