本文是LLM系列文章,针对《DISTILLM: Towards Streamlined Distillation for Large Language Models》的翻译。
摘要
知识蒸馏(KD)被广泛用于将教师模型压缩为较小的学生模型,在保留模型能力的同时降低其推理成本和内存占用。然而,当前用于自回归序列模型(例如,大型语言模型)的KD方法缺少标准化的目标函数。此外,最近使用学生生成的输出来解决训练推理不匹配的问题,显著增加了计算成本。为了解决这些问题,我们引入了DISTILLM,这是一个用于自回归语言模型的更有效的KD框架。DISTILLM包括两个组成部分:(1)一种新的偏斜Kullback-Leibler发散损失,我们在其中揭示并利用其理论特性;(2)一种自适应的非策略方法,旨在提高利用学生生成输出的效率。广泛的实验,包括指令跟随任务,证明了DISTILLM在构建高性能学生模型方面的有效性,同时与最近的KD方法相比,速度提高了4.3倍。
1 引言
2 背景
3 DISTILLM
4 实验
5 分析与讨论
6 相关工作
7 结论
我们提出了DISTILLM来解决自回归LMs的KD框架的挑战。我们的方法包括两个关键组成部分:(1)基于数学深入分析和经验证据的SK

DISTILLM是一种针对自回归语言模型的知识蒸馏框架,它提出了一种新的偏斜Kullback-Leibler散度损失和自适应非策略方法,解决了现有方法的效率和计算成本问题。实验表明,DISTILLM在构建高性能学生模型时速度提高了4.3倍,且在指令跟随等任务上表现出色。
已下架不支持订阅
26

被折叠的 条评论
为什么被折叠?



