《Sequence-Level Knowledge Distillation》
序列级别的知识提炼
一、大纲
这篇论文主要讲的是模型压缩,也就是训练一个简单的网络来代替已有的复杂的网络,训练的目标两个网络的交叉熵最小(两个网络的效果相近)和简单网络的负对数似然
最小(网络的效果好)。
二、Word-Level
描述:Teacher Network和Student Network分别训练处没个词的概率分布(向量维度为词表大小),然后交叉熵和负对数似然插值的最小化。
目标函数:
该博客探讨了序列级别的知识提炼在模型压缩中的应用,通过训练简单网络以逼近复杂网络的效果。主要内容包括词级别和序列级别的知识传递方法,如交叉熵和负对数似然的插值最小化,并介绍了如何利用k-Beam Search优化目标函数。
《Sequence-Level Knowledge Distillation》
序列级别的知识提炼
一、大纲
这篇论文主要讲的是模型压缩,也就是训练一个简单的网络来代替已有的复杂的网络,训练的目标两个网络的交叉熵最小(两个网络的效果相近)和简单网络的负对数似然
最小(网络的效果好)。
二、Word-Level
描述:Teacher Network和Student Network分别训练处没个词的概率分布(向量维度为词表大小),然后交叉熵和负对数似然插值的最小化。
目标函数:
734

被折叠的 条评论
为什么被折叠?