前言
蒸馏大型语言模型(Distillation of Large Language Models, LLMs) 是一种知识压缩技术,用于将一个大型、计算量大、性能优秀的模型(通常称为“教师模型”)的知识迁移到一个较小、较高效的模型(称为“学生模型”)。目标是通过蒸馏过程使得较小的模型能够在性能上接近大型模型,同时显著降低计算和存储的需求。
概念
- 教师模型:通常是一个非常庞大的模型,如 GPT-3 或类似的预训练语言模型。它能够生成高质量的输出,但计算和内存消耗都非常高。
- 学生模型:是一个比教师模型小得多的模型,通常通过在较少的参数和计算量下进行训练,尝试模仿教师模型的行为。学生模型通常会比教师模型更轻量、响应更快,但在一些任务上依然能够保持较好的表现。
目标
- 减少计算成本:学生模型在处理输入时,比教师模型需要更少的计算资源。
- 减少存储需求:学生模型参数量较少,存储需求较低,适合部署到计算资源有限的设备上(如移动设备、嵌入式系统等)。
- 保持性能:尽管学生模型较小,但它通过蒸馏学习到教师模型的知识,尽可能保持与教师模型相似的性能。
核心思想
-
软标签(Soft T