本文是LLM系列文章,针对《Tuna: Instruction Tuning using Feedback from Large Language Models》的翻译。
摘要
使用更强大的LLM(如Instruction GPT和GPT-4)的直接输出,对LLaMA等开源大型语言模型(LLM)进行指令调整,已被证明是一种使模型行为与人类偏好保持一致的经济高效的方法。然而,指令调优模型每个指令只看到一个响应,缺乏潜在更好响应的知识。在本文中,我们建议使用我们新颖的概率排名和上下文排名方法来微调指令调整LLM,以增加生成更好响应的可能性。概率排名使指令调整模型能够继承教师LLM的高质量和低质量回答的相对排名。另一方面,使用上下文排序的学习允许模型使用更强LLM的上下文理解能力来细化自己的响应分布。此外,我们将概率排序和上下文排序顺序应用于指令调优LLM。由此产生的模型,我们称之为Tuna,持续提高了超级自然指令(119个测试任务)、LMentry(25个测试任务,Vicuna QA)的性能,甚至可以获得比几个强强化学习基线更好的结果。我们的代码和数据可在https://github.com/microsoft/LMOps上获得。
1 引言
2 方法
3 实验
4 相关工作
5 结论
在本文中,我们建议使用我们的概率排序方法(Tunap)、上下文排序方法(Tunac)以及两者的组合(Tuna)来微调指令调整LLM。我们的综合实验表明,在三个基准测试中,性能得到了一致的改进:超级自然指令(1
Tuna是一种使用概率排名和上下文排名微调指令调优LLM的方法,以提高模型生成更好响应的能力。在超级自然指令、LMentry和Vicuna QA等基准测试中,Tuna模型的表现超越了强化学习基线,展现出提高基于指令的LLM性能的有效性。然而,该方法依赖GPT-4的排名,可能存在排名不一致性和对专有LLM的依赖性问题。
已下架不支持订阅
17万+

被折叠的 条评论
为什么被折叠?



