20240621日志：大模型压缩-从闭源大模型蒸馏_闭源模型可以蒸馏吗-优快云博客

1. 核心内容

本文提出在一个贝叶斯估计框架内估计闭源语言模型的输出分布，包括先验估计和后验估计。先验估计的目的是通过闭源模型生成的语料库（可能包含模型的粗粒度信息）得到先验分布；后验估计使用代理模型来更新先验分布并生成后验分布。利用这两个分布来进行知识蒸馏。

2. 方法

该文章的创新点是在知识蒸馏的过程中，使用一个代理模型作为教师模型和学生模型的中介，该项目配置如Table. 1

Table. 1 项目配置

项目	方法
benchmarks	BBH\ARC\AGIEval\MMLU\CSQA\GSM8K\
teacher model	GPT-4
proxy model	LLaMA-33B
student model	LLaMA-7B/13B

一些参数表示如下表

Table. 2 参数表示

变量	含义
$\mathcal{T}$	闭源的教师模型
$\mathcal{S}$	学生模型
$\mathcal{M}$	开源的代理模型
$X$	输入的token序列
$Y$	输出的token序列
$p_{Y_t}$	$\mathcal{T}$ 输出的概率Pr $Y_{t}$ \| $X, Y_{< t})$
$q_{Y_t}$	$\mathcal{S}$ 输出的概率Pr $Y_{t}$ \| $X,Y_{<t})$
$P_{Y_t}$	与 $p_{Y_t}$ 相关的离散随机变量

用指示函数 $\mathbb{I}_{Y_t=\boldsymbol{w}}$ （其实不是空心的I应该是空心的1，没法在优快云打出来）表示 $\mathcal{T}$ 在 $t$ 时刻产生的one-hot编码标签。
传统的目标函数可以表示为
$\mathcal{L}_{t}^{\text{traditional}}=-\sum_{w\in\mathbb{V}}\mathbb{I}_{Y_{t}=w}\log q_{Y_{t}=w}+\sum_{w\in\mathbb{V}}p_{Y_{t}=w}\log\frac{p_{Y_{t}=w}}{q_{Y_{t}=w}}\tag{1}$ 式中 $\mathbb{V}$ 表示词典， $w$ 是词典中的一个token，可以看出， $\mathcal{L}_{t}^{\text{traditional}}$ 由两部分组成，第一部分表示由硬标签（Fig.2）产出的交叉熵损失(交叉熵与相对熵在第三章详细说明)，第二部分表示用软标签计算出的KL损失，一般情况下由于 $p_{Y_{t}}$ 很难得到，第二项是被忽略的。
在这里插入图片描述

Fig.2 硬标签与软标签

这篇论文就是解决第二项的问题。

2.1 先验估计

先验估计的目的是使用 $\mathcal{T}$ 生成的语料库 $\mathcal{C}$ ，得到每一步 $t$ 的近似 $p_{Y_{t}}$ 的粗粒度估计 $\hat{p}_{Y_t}$ ，来自改良的n-gram算法（基于第n个项目的出现只与前面n-1个项目有关）来实现，对于给定一个输出token序列 $Y_{\leq t}\in\mathcal{C}$ ，假设 $Y_{t}=w_t$ 其中 $w_t$ 是 $\mathbb{V}$ 中的一个token，对于 $\mathbb{V}$ 中的某个token $w$ 如果有 $w=w_t$ ，有
$\hat{p}_{Y_t=w}=\frac{\#(Y_t=w,Y_{t-1}=w_{t-1},\ldots,Y_{t-n}=w_{t-n})}{\gamma\#(Y_{t-1}=w_{t-1},\ldots,Y_{t-n}=w_{t-n})}+\frac{\gamma-1}{\gamma}\tag{2}$