Knowledge distillation-知识蒸馏

最新推荐文章于 2024-10-08 12:39:51 发布

翻译最新推荐文章于 2024-10-08 12:39:51 发布 · 911 阅读

人工智能同时被 3 个专栏收录

151 篇文章

订阅专栏

NLP

51 篇文章

订阅专栏

迁移学习

3 篇文章

订阅专栏

知识蒸馏是一种技术，通过教师网络的软目标引导学生网络的训练，实现复杂模型的知识向轻量级模型的迁移。教师网络通常是高准确率但计算量大的模型，而学生网络则是小巧且资源高效的替代方案。研究表明，在NLP领域，预训练蒸馏（PD）方法优于传统的预训练加微调（PF），特别是在资源有限的情况下，小规模的学生网络也能达到良好的性能。实验结果显示，PD方法的表现最佳，其次是PF，而仅基于有标签数据的基本训练效果最差。

1. 简介

Knowledge distillation-知识蒸馏（暗知识提取）的概念，通过引入与教师网络（teacher network：复杂、但推理性能优越）相关的软目标（soft-target）作为total loss的一部分，以诱导学生网络（student network：精简、低复杂度）的训练，实现知识迁移（knowledge transfer）。

教师网络teacher：高准确率，但模型很大。
学生网络student：模型小，可以在有限资源下使用。

本文参考2019年《WELL-READ STUDENTS LEARN BETTER: ON THE IMPORTANCE OF PRE-TRAINING COMPACT MODELS》。描述了在NLP方面，Distillation有助于提升模型表现，比传统的pre-training+ﬁne-tuning方法好。这样在实际应用中，我们就可以用非常小的student网络取得很好的表现。

各模型介绍：
在这里插入图片描述