知识蒸馏示例代码实现及下载

原创已于 2022-04-08 17:20:06 修改 · 9k 阅读

89 ·

CC 4.0 BY-SA版权

文章标签：

#tensorflow #深度学习 #神经网络 #机器学习

于 2021-05-26 20:23:53 首次发布

深度学习基础专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了知识蒸馏的代码实现过程，包括数据集准备、教师模型和学生模型的构建、知识蒸馏步骤及实验结果。教师模型为4层MLP，学生模型为2层MLP。通过知识蒸馏，学生模型（2层MLP）达到了0.8365的准确率，而独立训练的准确率为0.8302，验证了知识蒸馏的有效性。

知识蒸馏代码实现

论文《Distilling the Knowledge in a Neural Network》

* 源码以Github为准

Github链接：https://github.com/yeqiwang/KnowledgeDistilling

1. 数据集

本文使用fashion_mnist数据集，输入图像大小为28*28，共分为10类。

通过tensoflow加载数据，并对label进行one hot编码。

import tensorflow as tf
from tensorflow import keras
import numpy as np

fashion_mnist = tf.keras.datasets.fashion_mnist
(train_images, train_labels), (test_images, test_labels) = fashion_mnist.load_data()
train_images = train_images/255
test_images = test_images/255
train_labels = tf.one_hot(train_labels, depth=10)
test_labels = tf.one_hot(test_labels, depth=10)

2. 教师模型

本文中使用一个4层MLP来作为教师模型。

训练过程中，模型最后使用softmax层来计算损失值。

训练结束后，更改最后的softmax层，以便生成软标签，其中T=2。同时，为了防止误操作，将教师模型冻结。

需要注意的是，虽然更改后教师模型不再进行训练，但仍需要使用compile函数进行配置，否则无法调用predict函数。

# 构建并训练教师模型
inputs = keras.layers.Input(shape=(28,28))
x = keras.layers.Flatten()(inputs)
x = keras.layers.Dense(128, activation='relu')(x)
x = keras.layers.Dense(128, activation='relu')(x)
x = keras.layers.Dense(128, activation='relu')(x)
x = keras.layers.Dense(10)(x)
outputs = keras.layers.Softmax()(x)

t_model = keras.Model(inputs, outputs)
t_model.summary()

callback = [keras.callbacks.EarlyStopping(patience=10 ,restore_best_weights=True)]
t_model.compile(optimizer='adam',
              loss=tf.keras.losses.CategoricalCrossentropy(from_logits=False),
              metrics=['accuracy'])

t_model.fit(train_images, train_labels, epochs=500, validation_data=(test_images, test_labels),callbacks=callback)

# 更改教师模型以便后续生成软标签
x = t_model.get_layer(index=-2).output
outputs = keras.layers.Softmax()(x/3)
Teacher_model = keras.Model(t_model.input, outputs)
Teacher_model.summary()
Teacher_model.trainable = False

Teacher_model.compile(optimizer='adam',
              loss=tf.keras.losses.CategoricalCrossentropy(from_logits=False),
              metrics=['accuracy'])

3. 学生模型

本文使用一个2层MLP作为学生模型。

学生模型构建完成后不进行训练，在后续的蒸馏过程中进行训练。

需要注意的是，学生模型最后一层不加Softmax层。

inputs = keras.layers.Input(shape=(28,28))
x = keras.layers.Flatten()(inputs)
x = keras.layers.Dense(128, activation='relu')(x)
outputs = keras.layers.Dense(10)(x)

Student_model = keras.Model(inputs, outputs)
Student_model.summary()

4. 知识蒸馏过程

学生模型进行蒸馏时，损失函数包括两部分：

Loss1：学生模型softmax输出值与真实标签的之间的损失（交叉熵）；
Loss2：学生模型软化后的softmax输出值（T=2）与教师模型生成的软标签之间的损失（KL散度）。

则，Loss = 0.1*Loss1 + 0.9*Loss2。

本文通过重写Model类来实现。

class Distilling(keras.Model):
  def __init__(self, student_model, teacher_model, T, alpha):
    super(Distilling, self).__init__()
    self.student_model = student_model
    self.teacher_model = teacher_model
    self.T = T
    self.alpha = alpha

  def train_step(self, data):
    x, y = data
    softmax = keras.layers.Softmax()
    kld = keras.losses.KLDivergence()
    with tf.GradientTape() as tape:
      logits = self.student_model(x)
      soft_labels = self.teacher_model(x)
      loss_value1 = self.compiled_loss(y, softmax(logits))
      loss_value2 = kld(soft_labels, softmax(logits/self.T))
      loss_value = self.alpha* loss_value2 + (1-self.alpha) * loss_value1
    grads = tape.gradient(loss_value, self.student_model.trainable_weights)
    self.optimizer.apply_gradients(zip(grads, self.student_model.trainable_weights))
    self.compiled_metrics.update_state(y, softmax(logits))
    return {'sum_loss':loss_value, 'loss1': loss_value1, 'loss2':loss_value2, }
  
  def test_step(self, data):
    x, y = data
    softmax = keras.layers.Softmax()
    logits = self.student_model(x)
    loss_value = self.compiled_loss(y, softmax(logits))
    return {'loss':loss_value}

  def call(self, inputs):
    return self.student_model(inputs)

蒸馏过程加入早停止机制，监视val_loss。

distill = Distilling(Student_model, Teacher_model, 2, 0.9)
distill.compile(optimizer='adam',
              loss=tf.keras.losses.CategoricalCrossentropy(from_logits=False))

callback = [keras.callbacks.EarlyStopping(patience=20, restore_best_weights=True)]

distill.fit(train_images, train_labels, epochs=500, validation_data=(test_images, test_labels), callbacks=callback)

5. 实验结果

为了验证结果，本文独立训练学生模型（加入Softmax层），与使用知识蒸馏训练的学生模型进行对比。

实验结果如下：

教师模型准确度 0.8682
学生模型准确度 0.8365 （知识蒸馏）
学生模型准确度 0.8302 （独立训练）

这表明，知识蒸馏方法确实有效。

欢迎评论留言讨论交流！

67 条评论

合适的u 2023.12.05
outputs = keras.layers.Softmax()(x/3)为什么要x/3呢？

weixin_52223927 2023.06.18
博主大大，文章中给的代码链接感觉跟文章中写的不太一样呀，我改了很久都运行不出来链接里面的代码，求助呀！！只能运行teacher和student，但dislling运行不出来[face]emoji:029.png[/face]

m0_65915256 2023.05.05
你好，请问运行完distilling文件后是会得到知识蒸馏后的ckpt学生模型吗？我这里运行后只显示了运行成功，并没有生成ckpt模型是什么原因呢？
- m0_65915256回复今生有幸.~ 2023.05.14
  数据集加载成功啦，不好意思还有个问题麻烦您。我在跑main的时候不管设置几圈最后都是只跑6圈，而且测试集和训练集准确率都是1，用学校服务器跑的，请问这里有什么可能的原因吗？
- 今生有幸.~回复m0_65915256 2023.05.14
  可以的，只要加载数据时更换为自己的数据就行
- m0_65915256回复今生有幸.~ 2023.05.14
  模型保存问题解决啦，还有想问一下博主minisit的数据集可以换成自己的RGB图像吗？
- m0_65915256回复今生有幸.~ 2023.05.10
  好的，我在试一下！谢谢博主！[face]emoji:072.png[/face]
- 今生有幸.~回复m0_65915256 2023.05.10
  你好，我写的代码中，程序入口在main.py中，在运行时需要指定参数model。模型训练完成后，参数保存在cheakpoint目录下。

小王的小翟� 2023.04.20
你好，请问代码的结果分别代表的什么呢 acc 和 val_acc还有最后单独的acc
- 今生有幸.~回复小王的小翟� 2023.05.13
  你好，代码结果中的acc代表训练集的准确度，val_acc代表测试集的准确度

DrGoopher 2022.11.19
你好，我要是加一个准确率是不是就直接可以在train_step方法中添加呢

烟火浊世_花语满天 2022.09.29
老哥 tf是哪个版本的啊
- 烟火浊世_花语满天回复今生有幸.~ 2022.10.08
  嗯嗯感谢老哥我按照tf的官网api找了其中用到的函数发现最低也要2.5才有那个函数我就弄了一个2.5的目前没问题
- 今生有幸.~回复烟火浊世_花语满天 2022.09.30
  没记错的话应该是tf 2.6

正在努力实验的小恐龙 2022.08.23
老哥你好，有pytorch版本吗？我这俩天做这个在最后知识蒸馏网络的地方老出错。

hu_ge033 2022.04.24
算了一下R2，这个蒸馏模型其实就是学生模型吧！ teacher_model_R2: 0.8260440317573693 student_model_R2: -279.3505780472941 Distilling_R2: -279.3505780472941
- hu_ge033回复xiemanman 2022.05.05
  可以直接调用 sklearn.metrics的r2_score
- xiemanman回复hu_ge033 2022.05.05
  请问以下怎么计算R2呀
- hu_ge033回复今生有幸.~ 2022.04.27
  是的
- 今生有幸.~回复hu_ge033 2022.04.27
  这个在具体任务上想获得好的效果的话，调整起来确实很麻烦。除了网络原有的超参以外，两个损失权重需要调整，蒸馏温度也需要调整。但有时还是容易不work。
- hu_ge033回复今生有幸.~ 2022.04.27
  其实就是学生模型学习教师模型softmax之前一层网络的权重吧，试了几个模型蒸馏的效果都不是特别好
- 今生有幸.~回复hu_ge033 2022.04.26
  个人觉得蒸馏就是在学生模型基础上的一个约束项，蒸馏模型容量对蒸馏结果的影响占比很大，这里可能需要调整一下
- hu_ge033回复今生有幸.~ 2022.04.25
  其实就是想看看蒸馏过的学生模型和教师模型预测结果的差异，结果差异很大，我用的tf版本比较旧2.0的，我换成2.2结果就很小了...
- 今生有幸.~回复hu_ge033 2022.04.25
  蒸馏模型就是通过蒸馏的方法训练得到的学生模型。你说的R2我不太明白说的是什么。