SelMatch：最新数据集蒸馏，仅用5%训练数据也是可以的 | ICML‘24

最新推荐文章于 2025-07-31 10:57:42 发布

原创

最新推荐文章于 2025-07-31 10:57:42 发布 · 995 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #深度学习 #神经网络 #目标检测

数据集蒸馏旨在从大型数据集中合成每类（IPC）少量图像，以在最小性能损失的情况下近似完整数据集训练。尽管在非常小的IPC范围内有效，但随着IPC增加，许多蒸馏方法变得不太有效甚至性能不如随机样本选择。论文对各种IPC范围下的最先进的基于轨迹匹配的蒸馏方法进行了研究，发现这些方法在增加IPC的情况下很难将更难样本的复杂、罕见特征纳入合成数据集中，导致了容易和难的测试样本之间持续存在的覆盖差距。受到这些观察的启发，论文提出了SelMatch，一种能够有效随IPC扩展的新型蒸馏方法。SelMatch使用基于选择的初始化和通过轨迹匹配进行部分更新来管理合成数据集，以适应针对IPC范围定制的期望难度级别。在对CIFAR-10/100和TinyImageNet的测试中，SelMatch在5%到30%的子集比率上始终优于主流的仅选择和仅蒸馏方法。

来源：晓飞的算法工程笔记公众号，转载请注明出处

论文: SelMatch: Effectively Scaling Up Dataset Distillation via Selection-Based Initialization and Partial Updates by Trajectory Matching

论文地址：https://arxiv.org/abs/2406.18561
论文代码：https://github.com/Yongalls/SelMatch

Introduction

数据集缩减对于数据高效学习至关重要，它涉及从大型数据集中合成或选择较少数量的样本，同时确保在这个缩减后的数据集上训练的模型性能与在完整数据集上训练的相比保持可比性或性能降低最小化。这种方法解决了在大型数据集上训练神经网络时所面临的挑战，如高计算成本和内存需求。

在这一领域中一种重要的技术是数据集蒸馏，也被称为数据集凝聚。这种方法将大型数据集提炼为一个更小的合成数据集。与核心集选择方法相比，数据蒸馏在图像分类任务中表现出显著的性能，特别是在极小规模上。例如，匹配训练轨迹（MTT）算法仅使用CIFAR-10数据集的1%，在简单的ConvNet上实现了71.6%的准确率，接近完整数据集的84.8%准确率。这种显著的效率来自于优化过程，在这个过程中，合成样本在连续空间中被最优地学习，而不是直接从原始数据集中选择。

然而，最近的研究表明，随着合成数据集的规模或每类图像（IPC）的增加，许多数据集蒸馏方法失去了效果，甚至表现不如随机样本选择。这一现象令人费解，考虑到蒸馏相对于离散样本选择提供的更大优化自由度。具体来说，DATM通过分析最先进的MTT方法的训练轨迹来调查这一现象，指出了在合成数据集过程中方法所关注的训练轨迹阶段如何显著影响蒸馏数据集的有效性。特别是，在早期轨迹中学习到的简单模式和在后期阶段学习到的困难模式明显影响了MTT在不同IPC情况下的性能。

论文进一步通过比较在不同IPC情况下，MTT方法涵盖合成数据集中简单和困难真实样本的情况，发现随着IPC增加，蒸馏方法未能充分将困难样本的稀有特征纳入合成数据集中，这导致了简单样本与困难样本之间的一致覆盖差距。在更高IPC范围内，数据集蒸馏方法效果降低的部分原因是它们倾向于专注于数据集中更简单、更具代表性的特征。相反，随着IPC的增加，涵盖更难、更稀有的特征对于在缩减数据集上训练的模型的泛化能力变得更加关键，这点在数据选择研究中得到了实证和理论上的验证。

受到这些观察的启发，论文提出了一种新颖的方法，名为SelMatch，作为有效扩展数据集蒸馏方法的解决方案。随着IPC的增加，合成数据集应该涵盖真实数据集更复杂和多样化的特征，具有适当的难度水平。通过基于选择的初始化和通过轨迹匹配的部分更新，管理合成数据集的期望难度级别。

基于选择的初始化：为克服传统轨迹匹配方法过度集中于简单模式的局限性，即使IPC增加，使用针对每个IPC进行优化的适当难度级别的真实图像来初始化合成数据集。传统的轨迹匹配方法通常使用随机选择的样本或接近类中心的简单或代表性样本来初始化合成数据集，以提高蒸馏的收敛速度。论文的方法则使用精心选择的子集来初始化合成数据集，该子集包含适合合成数据集大小的样本，其难度级别恰到好处。这种方法确保了随后的蒸馏过程以针对特定IPC范围优化难度级别的样本开始。实验结果显示，基于选择的初始化在性能表现中扮演重要角色。
部分更新：在传统的数据集蒸馏方法中，合成数据集中的每个样本都在蒸馏迭代过程中进行更新。然而，随着蒸馏迭代次数的增加，该过程会不断降低合成数据集中样本的多样性，因为蒸馏提供的信号偏向于全数据集中的简单模式。因此，为了保持困难样本的稀有和复杂特征（这些特征对于模型在较大IPC范围内的泛化能力至关重要），论文引入了对合成数据集的部分更新。主要思想是保持合成数据集中的固定部分不变，同时通过蒸馏信号更新其余部分，而未更改部分的比例根据IPC进行调整。实验结果显示，这样的部分更新对于有效扩展数据集蒸馏起到了重要作用。

在CIFAR-10/100和TinyImageNet上评估了SelMatch，并展示了在从5%到30%的子集比例设置中，与最先进的仅选择和仅蒸馏方法相比的优越性。值得注意的是，在CIFAR-100中，当每类有50张图像（10%比例）的情况下，与领先方法相比，SelMatch的测试准确率提高了3.5％。

Related Works

数据集减少中的两种主要方法：样本选择和数据集蒸馏。

Sample Selection

在样本选择中，主要有两种方法：基于优化和基于评分的选择。

基于优化的选择旨在识别一个小的核心集，有效地代表完整数据集的各种特征。例如，Herding和K-center选择一个近似于完整数据集分布的核心集。Craig和GradMatch寻求一个核心集，在神经网络训练中，它能够最小化与完整数据集的平均梯度差异。尽管在小到中等IPC范围内有效，但是与基于评分的选择相比，这些方法在可伸缩性和性能方面常常面临问题，特别是随着IPC的增加。

基于评分的选择能够根据神经网络训练中每个实例的难度或影响分配值。例如，Forgetting通过计算先前被正确分类但在之后的多个时期被误分类的次数来评估实例的学习难度。C-score将困难性评估为从训练集中删除样本时误分类的概率。这些方法优先考虑困难样本，捕捉罕见和复杂的特征，并在较大的IPC规模下优于基于优化的选择方法。这些研究表明，随着IPC的增加，引入更难或更稀有的特征对于模型的泛化能力的提高变得越来越重要。

Dataset Distillation

数据集蒸馏旨在创建一个小的合成集 $\mathcal{S}$ ，以便在 $\mathcal{S}$ 上训练的模型 $\theta^\mathcal{S}$ 能够实现良好的泛化性能，在完整数据集 $\mathcal{T}$ 上表现良好：

$\mathcal{S^*} = \underset{\mathcal{S}}{\text{arg min}} \mathcal{L}^\mathcal{T}(\theta^\mathcal{S}), \text{ with } \theta^\mathcal{S} = \underset{\theta}{\text{arg min}} \mathcal{L}^\mathcal{S}(\theta)$

这里， $\mathcal{L}^\mathcal{T}$ 和 $\mathcal{L}^\mathcal{S}$ 分别是 $\mathcal{T}$ 和 $\mathcal{S}$ 上的损失。为了应对双层优化的计算复杂性和内存需求，现有的工作采用了两种方法：基于替代的匹配和基于核的方法。基于替代的匹配将复杂的原始目标替换为更简单的代理任务。例如，DC、DSA和MTT旨在通过匹配梯度或轨迹，使在 $\mathcal{S}$ 上训练的模型 $\theta^\mathcal{S}$ 的轨迹与完整数据集 $\mathcal{T}$ 的轨迹保持一致。DM确保 $\mathcal{S}$ 和 $\mathcal{T}$ 在特征空间中具有相似的分布。另外，基于核的方法利用核方法近似神经网络对 $\theta^\mathcal{S}$ 的训练，并为内部优化推导出闭式解。例如，KIP使用神经切线核（NTK）进行核岭回归，FrePo通过仅专注于最后一个可学习层的回归来减少训练成本。然而，随着IPC的增加，基于替代的匹配和基于核的方法在可扩展性或性能方面都难以有效扩展。DC-BENCH指出，与高IPC情况下的随机样本选择相比，这些方法性能不佳。

近期的研究致力于解决最先进的MTT方法的可扩展性问题，主要关注计算方面，通过降低内存需求，或性能方面，通过在后续时期利用完整数据集的训练轨迹。具体而言，DATM发现与早期训练轨迹保持一致可增强在低IPC制度下的性能，而与后期轨迹保持一致对于高IPC制度下更有益。基于这一观察，DATM根据IPC优化了轨迹匹配范围，从而自适应地将专家轨迹中更容易或更困难的模式纳入，从而提高了MTT的可扩展性。虽然DATM可有效地确定轨迹匹配范围的下限和上限，但在这些范围之外的匹配损失变化趋势上，明确量化或搜寻所需的训练轨迹困难水平仍然是一个具有挑战性的任务。相比之下，论文的SelMatch利用基于选择的初始化和通过轨迹匹配进行部分更新，以纳入适合每个IPC的难样本的复杂特征。尤其是，论文的方法引入了一种新颖的策略，即针对每个IPC范围为合成样本初始化定制的困难水平，这是在以往的数据集蒸馏文献中尚未探讨的。此外，与专门设计用于增强MTT的DATM不同，SelMatch的主要组成部分，即基于选择的初始化和部分更新，在各种蒸馏方法中具有更广泛的适用性。

Motivation

Preliminary

Matching Training Trajectories (MTT)

最先进的数据集蒸馏方法MTT将作为基准，用于分析传统数据集蒸馏方法在大IPC范围内的局限性。MTT的目标是通过匹配真实数据集 $\mathcal{D}_\textrm{real}$ 和合成数据集 $\mathcal{D}_\textrm{syn}$ 之间的训练轨迹来生成合成数据集。在每个蒸馏迭代中，合成数据集会被更新，以最小化匹配损失，该损失以真实数据集 $\mathcal{D}_\textrm{real}$ 的训练轨迹 $\{\theta_t^*\}$