Effectiveness of Arbitrary Transfer Sets for Data-free Knowledge Distillation
我们研究任何任意转移集对知识提炼任务的有效性,尽管它与原始训练数据无关。如果证明是有效的,这样的数据集实际上可以用来设计重要的、通常是强大的KD任务的基线,同时为我们节省了现有的无数据蒸馏方法所产生的合成转移集的大量开销。这对于文本/图像领域尤其如此,因为在该领域,很容易从无处不在的公开来源中收集大量未标记的任意数据。更重要的是,这种调查可以发现对蒸馏过程机制的重要见解。
因此,在这项工作中,我们考虑在(i)随机噪声输入,(ii)任意合成数据集,和(iii)任意自然数据集向组成转移集。我们观察到任意数据样本可能不会均匀地投影到教师的学习分类区域中。换言之,任意数据样本可能不会均匀地投影到教师的学习分类区域中。分类区域的不平衡导致学生在蒸馏过程中过度拟合分类边界。也就是说,它不能保留从原始训练数据中学习到的类决策边界,从而严重影响了学生的泛化能力。这些观察结果导致了这样一个假设:一个理想的转移集应该平等地代表教师模型的所有分类区域,这样可以最小化决策边界的扭曲,从而有助于实现有效的知识转移。换言之,为了成功地将教师的学习传授给学生,任意迁移集需要“目标类别平衡”。
综上所述,本工作的贡献如下:
- 我们在文献中首次表明,在 "无数据 "的情况下,可以有效利用与目标数据集无关的任意转移集来完成知识提炼的任务。
- 为了最大限度地发挥使用这种转移集的蒸馏功效,我们提出了一种简单而有效的方法,即使其 “类平衡”。
- 我们在MNIST、FMNIST、CIFAR-10和CIFAR-100等多个基准数据集上实证了所提出的方法的有效性,因为我们实现了与最先进的无数据蒸馏方法相当的性能。