1. Motivation
在线批次选择(Online batch selection)方法通过在训练期间动态选择
数据批次,为静态训练数据的选择提供了一种自适应替代方案。然而,现有方法要么依赖于参考模型(reference model),要么依赖于一些可能无法捕获真实数据信息的简单启发式方法。
- 基于参考模型的批次选择方法: 依赖于额外的参考模型。一些方法的参考模型是根据大量保留数据进行训练的,这会导致相当大的计算成本,并减少可用于训练主模型的数据量。另一些方法则利用公开的大规模预训练模型作为参考模型,但是也需要进行贝叶斯处理,并在每次迭代时查询候选批次中每个样本的参考模型。这些操作的计算成本很高,使得该方法对于大规模 LLM 训练来说不切实际。
- 启发式方法:根据高损失或大梯度范数等指标对具有挑战性的样本进行优先级排序。但这些启发式方法可能无法捕获示例的真实信息或相关性。因此,这些方法在性能方面常常不足,在某些情况下甚至可能比简单的均匀选择表现不佳。
静态数据选择(static data selection):在训练过程之前仅进行一次数据训练的选择。这种方法主要是出于效率考虑,因为花在数据选择上的时间可以分摊到大量的训练步骤中。然而,这种单步选择的非自适应性质通常会导致性能不佳,因为所选数据在整个训练过程中可能不是最具信息性或相关性的。此外,这些算法通常需要大量且复杂的数据预处理步骤,一些数据选择算法甚至需要为了做数据选择还额外训练模型,这带来了额外的计算成本和实现复杂性。
基于此,作者提出了Online batch selection,这是一个更具适应性和动态性的数据选择方法。通过根据模型的进度不断更新选择标准,在线批量选择可以在训练的每个阶段识别最相关和信息最丰富的示例,从而有可能实现更快的收敛和更好的泛化性能。此外,与预先处理整个数据集的静态数据选择方法相比,在线批量选择对较小批次的数据进行操作,减少了繁琐的数据预处理的需要,并能够更有效地利用计算资源。