A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第8部分——数据

8 数据集

后训练技术被精心设计以提高LLMs对特定领域或任务的适应性,而数据集则是这一优化过程的基石。对先前研究[457, 82]的仔细审查强调了数据的质量、多样性和相关性如何深刻影响模型的有效性,并经常决定后训练努力的成功与否。为了阐明数据集在此背景下的关键作用,本文提供了对后训练阶段所使用数据集的一个全面回顾和深入分析,并根据其收集方法将它们分类为三种主要类型:人工标记数据、提炼数据和合成数据。

这些类别反映了数据管理中的不同策略,模型可能采用单一方法或结合多种类型的混合方法来平衡可扩展性、成本和性能。表9提供了这些数据集类型的详细概览,包括它们的来源、规模、语言、任务以及后训练阶段(如监督微调SFT和基于人类反馈的强化学习RLHF)。在后续部分中,我们将探索它们在提升LLM能力方面的贡献与挑战。

8.1 人工标记数据集

人工标记数据集以其卓越的准确性和上下文保真度著称,这些属性源于标注者对任务复杂性的细致理解及其进行精确、上下文敏感调整的能力。这些数据集是细化指令微调的基石,通过提供高质量、专家精心策划的训练信号,在多样化的任务中显著提升LLM的表现。在此类别中,Flan[17]、P3(公共提示池)[459]、Sup-Natinst(超级自然指令)[462]和Dolly-15K[468]等著名范例作为LLM后训练中广泛采用的资源脱颖而出,每个资源都通过人类专业知识为优化模型能力贡献了独特的优势。

人工标记数据在SFT阶段的应用

在SFT(监督微调)阶段,人工标记数据集发挥着不可或缺的作用,Flan、Sup-Natinst和Dolly-15K的贡献表明了这一点,它们提供了精心设计的提示-响应对和特定任务的指令,以提升LLM在各种自然语言处理基准测试中的效能。

  • Flan。Flan数据集[17]是一个基础资源,最初包含了62个广泛认可的NLP基准测试——如HellaSwag[482]、MRPC[483]和ANLI[484]——通过其180万个示例促进英语中的强大多任务学习。最近,FlanV2[34]作为一个先进的迭

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值