本文也是LLM系列相关文章,介绍instruction Tuning的相关内容,针对《How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources》的翻译。
Camel能走多远?探索开放资源上的指令调整状态
摘要
在这项工作中,我们在一系列开放式指令跟随数据集上探索了指令调整语言模型的最新进展。尽管最近有人声称开放模型可以与最先进的专有模型相提并论,但这些说法往往伴随着有限的评估,这使得全面比较模型和确定各种资源的效用变得困难。我们提供了一大组大小从6.7B到65B的指令调整模型,在12个指令数据集上进行训练,从手动策划(例如,OpenAssistant)到合成和提炼(例如,Alpaca),并通过一系列自动、基于模型和基于人的度量。我们进一步介绍了TÜLU,这是我们性能最好的指令调优模型套件,在高质量开放资源的组合上进行了微调。
我们的实验表明,不同的指令调整数据集可以揭示或增强特定技能,而没有一个数据集(或组合)在所有评估中提供最佳性能。有趣的是,我们发现基于模型和人类偏好的评估未能反映基于基准的评估所暴露的模型能力的差异,这表明在这项工作中需要进行系统评估。我们的评估显示,任何给定评估中的最佳模型平均达到ChatGPT性能的83%和GPT-4性能的68%,这表明需要进一步投资于构建更好的基础模型和指令调整数据来缩小差距。我们发布了经过指令调整的模型,包括经过完全调整的65B TÜLU,以及我们的代码、数据和评估框架,以促进未来的研究。
1 引言
最新一代的大型语言模型给语言技术的潜力带来了前所未有的关注。为了支持命令式用户请求和聊天界面,这些模型通常会经历指令调整步骤,其中包括对监督输入/输出对进行训练。指令调整语料库通常通过众包(Dolly,Open Assistant)或通过从另一个模型中提取(Alpaca,Vicuna)来收集。然而,尽管一些公共的、指令调整的模型被宣传为与强大的封闭源代码专有模型(如ChatGPT
本文全面评估了指令调优在一系列公开资源上的效果,发现不同的指令数据集能提升特定技能,但没有单一数据集在所有评估中最佳。最大65B的模型在平均性能上接近ChatGPT的83%,但未达到GPT-4的水平。论文介绍了模型TULU,它是公开发布的最大指令调优模型之一,展示了指令调优的潜力和挑战,强调了需要更好的基础模型和指令数据集来缩小差距。
已下架不支持订阅
344

被折叠的 条评论
为什么被折叠?



