大模型知识蒸馏概述

最新推荐文章于 2025-04-14 12:57:09 发布

大模型部署

最新推荐文章于 2025-04-14 12:57:09 发布

阅读量4.8k

点赞数 8

文章标签：人工智能开发语言产品经理 prompt chatgpt 大模型 LLM

本文链接：https://blog.youkuaiyun.com/huang9604/article/details/139108536

版权

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。而大模型压缩主要分为如下几类：

剪枝（Pruning）
知识蒸馏（Knowledge Distillation）
量化（Quantization）
低秩分解（Low-Rank Factorization）

本文将讲述当前大模型蒸馏相关的一些工作。

知识蒸馏简介

知识蒸馏是一种机器学习模型压缩方法，它用于将大型模型（教师模型）的知识迁移到较小的模型（学生模型）中。

知识蒸馏（KD），也被称为教师-学生神经网络学习算法，是一种有价值的机器学习技术，旨在提高模型性能和泛化能力。

它通过将知识从复杂的模型（称为教师模型）转移到更简单的模型（称为学生模型）来实现这一点。 KD背后的核心思想是将教师模型的综合知识转化为更精简、更有效的表示。

本文，我们将概述利用LLM作为教师的蒸馏方法。根据这些方法是否将LLM的涌现能力（EA）提炼成小语言模型（SLM）来对这些方法进行分类。因此，我们将这些方法分为两个不同的类别：标准 KD 和基于 EA 的 KD。为了直观地表示，下图提供了LLM知识蒸馏的简要分类。

标准知识蒸馏

Standard KD旨在使学生模型学习LLM所拥有的常见知识，如输出分布和特征信息。这种方法类似于传统的KD，但区别在于教师模型是LLM。比如：MINILLM 和 GKD。

MINILLM （论文：Knowledge Distillation of Large Language Models）深入研究了白盒生成LLM的蒸馏。它观察到最小化前向 Kullback-Leibler 散度 (KLD) 的挑战（这可能会导致教师分布中不太可能的区域出现概率过高，从而在自由运行生成过程中导致不可能的样本）。为了解决这个问题，MINILLM 选择最小化逆向 KLD。这种方法可以防止学生高估教师分布中的低概率区域，从而提高生成样本的质量。

GitHub：github.com/microsoft/L…
教师/学生模型：GPT2、GPT-J、OPT、LLaMA
来源：清华和微软研究院

GKD（论文：GKD: Generalized Knowledge Distillation for Auto-regressive Sequence Models）探索了自回归模型的蒸馏，这里白盒生成 LLM 是一个子集。该方法确定了两个关键问题：训练期间的输出序列与学生在部署期间生成的输出序列之间的分布不匹配，以及模型under-specification，其中学生模型可能缺乏与教师分布相匹配的表达能力。GKD 通过在训练期间对学生的输出序列进行采样来处理分布不匹配，它还通过优化替代散度（逆向 KL）来解决模型under-specification的问题。

来源：Google DeepMind

基于涌现能力的知识蒸馏

基于 EA 的 KD 不仅仅迁移 LLM 的常识，还包括蒸馏他们的涌现能力。

与 BERT（330M）和 GPT-2（1.5B）等较小模型相比，GPT-3（175B）和 PaLM（540B）等 LLM 展示了独特的行为。这些LLM在处理复杂的任务时表现出令人惊讶的能力，称为“涌现能力”。涌现能力包含三个方面，包括上下文学习 (ICL)、思维链 (CoT) 和指令遵循 (IF)。如图三所示，它提供了基于EA的知识蒸馏概念的简明表示。

上下文学习蒸馏

ICL 采用结构化自然语言提示，其中包含任务描述以及可能的一些任务示例作为演示。通过这些任务示例，LLM可以掌握并执行新任务，而无需显式梯度更新。

In-context Learning Distillation: Transferring Few-shot Learning Ability of Pre-trained Language Models 论文中引入了 ICL 蒸馏，它将上下文小样本学习和语言建模功能从 LLM 转移到 SLM。这是通过将上下文学习目标与传统语言建模目标相结合来实现的。

为了实现这一目标，他们在两种小样本学习范式下探索了 ICL 蒸馏：元上下文调优 (Meta-ICT) 和多任务上下文调优 (Multitask-ICT)。

在 Meta-ICT 中，语言模型使用上下文学习 objectives 在不同任务中进行元训练。这使其能够通过上下文学习来适应看不见的任务，从而扩展其解决问题的能力。

另一方面，Multitask-ICT 使用 ICL objectives 和 target 任务中的一些示例对模型进行微调。随后，它采用上下文学习来对这些任务进行预测。

比较这两种范式，Multitask-ICT 表现出优于 Meta-ICT 的性能。然而，它在任务适应过程中确实需要更多的计算资源，使其计算加强。

来源：哥伦比亚大学

思维链蒸馏

与 ICL 相比，CoT 采用了不同的方法，它将中间推理步骤（可以导致最终输出）合并到提示中，而不是使用简单的输入输出对。

MT-COT （论文：Explanations from Large Language Models Make Small Reasoners Better）旨在利用 LLM 产生的解释来加强小型推理机的训练。它利用多任务学习框架使较小的模型具有强大的推理能力以及生成解释的能力。

来源：加州大学圣塔芭芭拉分校、腾讯人工智能实验室、微软等

Fine-tune CoT （论文：Large language models are reasoning teachers）更进一步，通过随机采样从 LLM 生成多个推理解决方案。训练数据的增强有助于学生模型的学习过程。

GitHub：github.com/itsnamgyu/r…
来源：韩国科学技术院

Fu 等人的研究（论文：Specializing Smaller Language Models towards Multi-Step Reasoning）发现语言模型多维能力之间的权衡，并提出微调指令调整模型。他们从大型教师模型中提取 CoT 推理路径，以提高分布外泛化能力。

来源：爱丁堡大学、艾伦AI研究所

Hsieh 等人的研究（论文：Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes）使用 LLM 论据作为在多任务框架内训练较小模型的额外指导。

来源：华盛顿大学、谷歌
GitHub：github.com/google-rese…
学生模型：T5
教师模型：PaLM

SOCRATIC CoT（论文：Distilling Reasoning Capabilities into Smaller Language Models）训练两个蒸馏模型：问题分解器和子问题求解器。分解器将原始问题分解为一系列子问题，而子问题求解器负责解决这些子问题。

来源：苏黎世联邦理工学院计算机科学系

DISCO（论文：DISCO: Distilling Counterfactuals with Large Language Models）引入了一种基于 LLM 的全自动反事实知识蒸馏方法。它通过工程化的提示使用 LLM 生成短语扰动，然后通过特定于任务的教师模型过滤这些扰动，以提取高质量的反事实数据。

来源：洛桑联邦理工学院自然语言处理实验室、艾伦人工智能研究所
GitHub：github.com/eric11eca/d…

为了形成更好的监督，SCOTT（论文：SCOTT: Self-Consistent Chain-of-Thought Distillation）通过对比解码从大型 LM（老师）那里得到支持标准答案的论据，这鼓励老师生成只有在考虑答案时才变得更加可信的Token。为了确保可信的蒸馏，我们使用教师生成的基本论据来学习具有反事实推理目标的学生 LM，这可以防止学生忽略基本论据而做出不一致的预测。

来源：南加州大学计算机科学系，亚马逊公司
GitHub：github.com/wangpf3/con…

指令遵循蒸馏

IF 致力于仅基于阅读任务描述来增强语言模型执行新任务的能力，而不依赖于少数样本。通过使用一系列以指令表示的任务进行微调，语言模型展示了准确执行以前未见过的指令中描述的任务的能力。

例如，Lion （论文：Lion: Adversarial Distillation of Closed-Source Large Language Model）利用LLM的适应性强的特点来提高学生模型的表现。它提示LLM识别并生成“hard”指令，然后利用这些指令来增强学生模型的能力。这种方法利用了LLM用途广泛的特性来指导学生模型的学习，以解决复杂的指令和任务。

来源：香港科技大学
GitHub：github.com/YJiangcm/Li…
学生模型：LLaMA-7B
教师模型：ChatGPT(GPT-3.5)

结语

本文简单讲述了目前大模型知识蒸馏方向的一些工作，在大模型参数量越来越大的今天，该方向（通过相对较小量级的模型蒸馏大模型的知识）的研究显得格外有意义。

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍