最近学到了知识蒸馏的相关知识,来简单总结一下૮꒰ ˶• ༝ •˶꒱ა。
知识蒸馏
知识蒸馏,是一种模型压缩的手段。通过训练学生模仿教师的行为,将嵌入在大的教师模型中的知识迁移到小的学生模型。
例如,TinyBERT(Jiao et al.,2020)通过在通用领域的大规模语料库上执行通用的蒸馏,首次得到了一个通用的蒸馏小模型,然后在微调阶段用下游任务数据执行面向特定任务的蒸馏。DynaBERT通过从全量模型到小规模的子模型的知识蒸馏,训练了一个宽度自适应和深度自适应的BERT模型。
知识蒸馏也可以用于剪枝,以提高性能,例如块剪枝(Lagunas et al,2021)和CoFi(Xia et al,2022)。


本文介绍了知识蒸馏作为模型压缩的方法,通过让小型学生模型学习大型教师模型,如TinyBERT和DynaBERT的案例。它还探讨了知识蒸馏与迁移学习的关联,并提及了如何用于剪枝以提升性能,如块剪枝和CoFi技术的应用。
最低0.47元/天 解锁文章
857

被折叠的 条评论
为什么被折叠?



