关于teacher-student(知识蒸馏)的一些思考与总结

最近看了几篇有关teacher-student架构的paper,感觉收获挺大的,今天就来总结一下。这个teacher-student模式架构主要的目的就是用来进行深度学习模型的压缩,属于model compression领域中的一种比较流行的做法。因为深度学习下为了能够获得更好的准确率,训练出的网络往往结构比价复杂,而对于一些在线预测任务来说,复杂的模型结构不利于线上预测任务的快速响应需求,因此模型压缩的需求应运而生。故在该模型框架下,teacher结构相当于原始的复杂的深度神经网络结构,student则是一种轻量级的网络结构;因此teacher会有更高的预测准确率,它会指导student到达在简化参数之后最好的模型效果。既然已经介绍了teacher-student网络的工作过程,下面就来介绍一些学习到的一些知识(主要参考了阿里、爱奇艺等公司的在推荐系统精排阶段的一些落地实践,以及大神张俊林对于知识蒸馏方法在推荐系统工业落地的一些思考总结)。

第一个参考来源是Hinton大神2015年发表的paper《Distilling the Knowledge in a Neural Network》。整体来说这篇paper由于发表的比较早,所以他整体模型的思路也比较简单。首先使用训练数据集,通过构建比较复杂的网络结构来学习到一个teacher network,然后使用这个学习到的teacher network重新对训练数据集进行预测,
生成soft的结果概率分布,qi=exp(zi/T)∑jexp(zj/T)q_i=\frac{exp(z_i/T)}{\sum_j exp(z_j/T)}qi=jexp(zj/T)exp(zi/T)。其实论文里提到,在这个地方有两种可选方案:1 只是对training data预测soft概率分布;2 对所有的label数据和unlabel数据预测soft概率分布。通过实验证明了,第一种方式准确度更高,因此选用了第一种方案。

其中这个TTT是一个缩放因子,这个值越高说明预测结果的概率分布变的越soft。在distillinged即student网络进行训练的时候,其损失函数来自两个地方:1 使用了T进行缩放的teacher产生的soft概率分布的cross entropy;2 来自该样本真实类别属性的hard cross entropy,即L=α∗Lsoft+(1−α)∗LhardL=\alpha* L_{soft}+(1-\alpha)*L_{hard}L=αLsoft+(1α)Lhard

其实在该paper中,关于teacher网络对于student网络的指导,仅仅只是在网络输出的结果部分,并且以soft的类别概率分布的方式体现出来。这样student在进行学习的时候,相比于只提供类别的归属信息1或者0来说,它可以知道更多的信息,(虽然两个样本都被划为了1类,只能说明它们被预测为1类的概率大于被预测为0类的概率,但是它们被划分为1类的强弱信息是不知道的)。

第二个参考来源是阿里妈妈精准定向广告推荐组在2018年AAAI上发表的paper《Rocket Launching: A Universal and Efficient Framework for Training Well-performing Light Net》,这篇paper也用到了teacher-student架构。整个模型如下所示:
这里写图片描述
其中左边的Booster net就对应了teacher network,右边的Light Net就对应了student network。假设light net网络的softmax输出形式为:p(x)=softmax(l(x))p(x)=softmax(l(x))p(x)=softmax(l(x)),booster net网络的softmax输出形式为:q(x)=softmax(z(x))q(x)=softmax(z(x))q(x)=softmax(z(x))。那么该模型的损失函数如下所示:
L=H(y,p(x))+H(y,q(x))+λ∣∣l(x)−z(x)∣∣2L=H(y,p(x))+H(y,q(x))+\lambda||l(x)-z(x)||^2L=H(y,p(x))+H(y,q(x))+λl(x)z(x)2。和标准的teacher-student 架构不同的是在该paper提出的架构中Lighter和booster是联合训练的,这么做的原因是:student network可以学习teacher network整个的优化过程,而不仅仅是一个最终优化好的结果。同时在使用误差梯度逆向传播对网络进行更新的时候,损失函数中的λ∣∣l(x)−z(x)∣∣2\lambda||l(x)-z(x)||^2λl(x)z(x)2部分只对student network参数部分进行更新(这样才是teacher 去指导student),过程如下所示:
这里写图片描述
从中还可以发现,在该paper提出的网络结构中,light net和booster net还共享了部分底层的网络参数。(整个神经网络模型,从功能的角度来看,可以分为表示层+判别层,网络的底层主要进行表示层工作,因此具有share的特性。)

其实,在衡量student和teacher网络输出差异部分还可以有其他的选择,作者也在实验中进行了对比,结果肯定是他采用的这种方式效果是最好的,其他两种方式如下所示,给大家一个参考,毕竟不同场景下最优的策略可能是不一样的:
1 ∣∣p(x)−q(x)∣∣2||p(x)-q(x)||^2p(x)q(x)2
2 H(p(x)T,q(x)T)H(\frac{p(x)}{T},\frac{q(x)}{T})H(Tp(x),Tq(x))

第三个参考的来源是爱奇艺公司在精排阶段采用的知识蒸馏模型,整体架构图如下所示:
在这里插入图片描述
其实从整理来看和阿里妈妈提出的蒸馏架构是相似的,都在teacher网络和student网络在输入部分共享了Embedding部分参数,都在模型最后一层的输出部分增加了logits形式的损失函数∣∣l(x)−z(x)∣∣2||l(x)-z(x)||^2l(x)z(x)2,但是需要注意的是有两点改进的地方:
1 除了网络最后的输出部分,中间的MLP隐藏侧部分也增加了对应的损失函数,也就是说除了要保证teacher和student在输出决策部分是相似的,也要保证中间隐藏层单元的输出也是相似的;
2 既然teacher网络和student网络在输入Embedding共享,而中间的MLP隐藏层参数一致(只有一致的情况下,才能针对隐藏层部分增加损失函数),那么如果体现出teacher网络优于student网络的地方呢?就是图中用红框框起来的Feature Interaction layer,这部分是teacher网络所拥有但是student网络没有的地方,在实际操作中这部分可以设计相对复杂一些。

最后参考的就是张俊林大神对于蒸馏网络在推荐系统特别是在召回阶段的一些思考和展望。其实给我印象、启发最大有以下几点:
1 虽然爱奇艺和阿里妈妈都是在精排阶段采用了蒸馏网络的思想,其实在召回/粗排阶段也可以采用蒸馏网络架构,而将召回/粗排作为student,那么对应后续的精排网络就可以作为teacher进行指导,这样可以使得前置两个环节(召回/粗排)的优化目标和推荐任务的最终优化目标保持一致;

2 就是在训练student的时候,并不是传统的直接使用logits结果信息进行辅助,即所说的Without-Logits 方案,即根据精排模型输出的物品最后呈现的顺序来进行辅助训练,排名靠前的肯定是精排模型认为越重要的,这里构造样本就有了几种方式,即point-wise,pair-wise和list-wise,其中point-wise是作者亲自试验了并证明是有一定效果的方法:
所谓point-wise来进行构造样本,即取一个超参数K,认为精排模型输出排名前k个商品是正样本,排名后面的是负样本(个人认为,负样本集合可以再从全局负采样一些也许不错)。同时作者注意到,即使都是排名前K的样本,这个排序的顺序往往是有意义的,也就是说越靠前的样本越重要,就越“正”,于是在损失函数部分,根据样本位置的不同,给每一个损失函数都进行了加权处理,一种示例的加权方式如下:LossWeight=(1+α∗1/position)LossWeight=(1+\alpha*1/position)LossWeight=(1+α1/position),position取值越小,样本排序越靠前,LossWeightLossWeightLossWeight的值越大。
至于pairwise和listwise方式其实大同小异,这里就不再赘述了。

其实关于teacher-student架构的paper还有不少,不过大概的核心思想和实现方式基本大同小异,比方说2015年ICLR的paper《fitnets: hints for thin deep nets》,也是利用类似的方式把一个shallow and wide的网络变成deep and thin的网络,它不仅仅是对最终分类的概率输出进行了比对,同时对网络的中间层神经元的输出进行了比对,具体的方式可以去原文中学习。

### Qwen3-235B 模型蒸馏方法实现步骤 模型蒸馏是一种将大型复杂模型的知识迁移到较小模型的技术,其核心思想是通过教师模型(Teacher Model)指导学生模型(Student Model)的学习过程。对于 Qwen3-235B 的蒸馏,可以参考以下方法和实现步骤: #### 1. 教师模型的选择 Qwen3-235B 作为教师模型,因其具有强大的性能和丰富的知识,能够为学生模型提供高质量的指导。在蒸馏过程中,教师模型生成的输出(如 logits 或中间层特征)被用作监督信号[^2]。 #### 2. 学生模型的设计 学生模型通常是轻量级的版本,例如 DeepSeek-R1-0528-Qwen3-8B 或其他更小规模的模型。这些模型在参数数量上显著减少,但通过蒸馏技术可以保留大部分教师模型的能力[^3]。 #### 3. 蒸馏损失函数 蒸馏过程中通常使用两种类型的损失函数: - **软目标损失**:基于教师模型的 softmax 输出计算 KL 散度,以确保学生模型学习到教师模型的概率分布。 - **硬目标损失**:基于真实标签的交叉熵损失,确保学生模型在实际任务上的表现[^1]。 综合这两种损失函数可以表示为: ```python loss = alpha * soft_target_loss + (1 - alpha) * hard_target_loss ``` 其中,`alpha` 是平衡参数,用于控制两种损失的重要性。 #### 4. 数据准备 为了训练学生模型,需要准备大量的训练数据。这些数据可以包括: - 原始训练数据集。 - 教师模型生成的伪标签(pseudo-labels),尤其是在未标注数据上生成的输出。 #### 5. 训练过程 在训练过程中,学生模型不仅学习真实标签,还学习教师模型的预测分布。具体步骤如下: - 使用教师模型生成软目标(soft targets)。 - 将软目标真实标签结合,优化学生模型的参数。 - 可选地引入正则化项,如 L2 正则化或 dropout,以提高学生模型的泛化能力[^1]。 #### 6. 后训练强化学习 除了传统的蒸馏方法,还可以结合后训练技术,例如基于推理的强化学习(RL)和长链式思考(CoT)。这些方法能够进一步提升学生模型的性能,尤其是在复杂任务上。 #### 7. 部署优化 完成蒸馏后,可以使用高效的推理框架(如 vLLM)对模型进行部署。vLLM 提供了多种优化特性,包括高效的内存管理、高吞吐量处理以及分布式推理支持[^4]。 ```python # 示例代码:蒸馏损失函数实现 import torch import torch.nn.functional as F def distillation_loss(student_logits, teacher_logits, labels, temperature=2.0, alpha=0.5): # 软目标损失 soft_targets = F.softmax(teacher_logits / temperature, dim=-1) soft_student = F.log_softmax(student_logits / temperature, dim=-1) soft_target_loss = F.kl_div(soft_student, soft_targets, reduction='batchmean') * (temperature ** 2) # 硬目标损失 hard_target_loss = F.cross_entropy(student_logits, labels) # 综合损失 loss = alpha * soft_target_loss + (1 - alpha) * hard_target_loss return loss ``` ### 注意事项 - 蒸馏过程中需要仔细调整超参数(如温度 `temperature` 和平衡参数 `alpha`),以获得最佳效果。 - 学生模型的架构设计应任务需求匹配,避免因模型过小而导致性能下降。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值