When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

困惑度方法剪枝大语言模型数据集至30%

文章地址:2309.04564 (arxiv.org)

背景

超越神经缩放法则:在机器学习领域,神经缩放法则描述了模型性能与模型大小、数据量之间通常遵循幂律关系。超越神经缩放法则旨在寻找突破这种传统幂律缩放的方法,以实现更高效的模型训练和性能提升。关键在于根据数据修剪指标修剪数据,影响模型的缩放规律。

网络爬取的大规模语料库嘈杂质量较低,已经存在一些启发式剪枝方法:修剪掉重复文本,特殊字符、非英文文本、人工管理“blocklist”网站的数据,设定文本长度阈值等。这些手动管理的过滤器可以筛选某些噪声实例,但针对单个训练实例还未有最佳数据质量度量。

本篇文章通过数据剪枝探索更广泛严谨的数据质量评估标准。

相对于语言,目前数据剪枝研究主要在集中计算机视觉上。在语言领域,已有研究针对微调和人工构建高质量数据集方法。但微调在少量数据上对复杂计算容忍度较高,人工构建高质量数据库耗时且资源密集。

本文主要探究三个问题:

1.能否从预训练数据集中删除影响最小的样本并实现类似或更好的性能?

2.估计数据质量简单方法是否优于复杂且计算成本更高的方法?

3.哪些指标评估数据质量最好?

研究者通过严格评估三个自动修剪指标来探索这些问题:困惑度(perplexity)、EL2N、记忆度(memorization).

方法

e9405a174b5b47d1841c98d869ba0d42.png

eq?P_%7B%5Cxi%7D%20%3D%20%5C%7Bz_i%20%5Cin%20D%20%7C%20Criteria%28Score_%7B%5Cxi%7D%28z_i%29%29%5C%7D

根据算法评分筛选样本集eq?P_%7B%5Cxi%7D

%20P_%7B%5Cxi%7D

eq?D中移除eq?P_%7B%5Cxi%7D

eq?P_%7B%5Ctau%7D%28M_%7B%5Chat%7BD%7D_%7B%5Cxi%7D%7D%29%20%5Cgeq%20P_%7B%5Ctau%7D%28M_D%29

在筛选集上模型性能不会降低

1.perplexity

c0f8045bcb9043e69427e4151faa14f0.png

详细解释:几句话说明白Perplexity - 知乎 (zhihu.com)

Perplexity of fixed-length models (huggingface.co)

2.EL2N

86ecfaba6fe74824981e270285673051.png

3.memorization

6a2a76f668414a93914e31229c152061.png

实验

135311d717ec469ca003b47a4de5cb3a.png

实验与结论

1、删除简单实例可提高性能

实验发现最高性能模型版本并不总是依赖于“容易”的数据(低perplexity、低EL2N或高memorization),而保留“复杂”数据更有益于模型训练。

“容易”数据的解释

  • 基于Perplexity:在自然语言处理中,Perplexity是衡量模型预测能力的一个指标,低Perplexity意味着模型对文本的预测较好。因此,“容易”数据指的是那些模型预测时表现出低Perplexity的数据点,即模型处理起来相对简单的内容。

  • 基于EL2N(Expected Likelihood Error Squared Norm):这是一个评估模型初始错误的指标,低EL2N值表示数据点的初始预测误差较小。这里的“容易”数据同样指的是模型初期就能较好处理的数据。

  • 在记忆视角下的“容易”:在讨论模型的过度拟合或记忆能力时,“容易”数据指的是那些模型能够非常快速且彻底学习到的数据点,通常是那些具有显著特征或重复出现的模式,这些数据点可能不是从预测难度角度定义的“容易”,但它们被模型高度记忆。

2、简单修建指标优于更复杂的方法

3、较大参考模型更有剪枝优势

4、在更干净数据上训练的参考模型会产生更好的剪枝信号

5、早期参考模型checkpoint可作为有效的评分模型

6、基于困惑度的剪枝改进适用于更大规模的模型

 

研究双层优化在学习和视觉中的应用,是为了改善学习算法和视觉系统的性能。在学习和视觉任务中,我们通常面临两个层面的优化问题。 第一层优化问题涉及到学习算法的优化,即如何通过合适的学习算法来获得最佳的模型参数。学习算法的优化过程通常涉及到定义损失函数和选择合适的优化方法。然而,常规的优化方法在高维问题中可能会面临挑战,导致在学习过程中陷入局部最优解。因此,研究者们开始探索使用双层优化方法来改进学习算法的性能。双层优化方法通过引入内部优化循环来进一步更新学习算法中的超参数,以改善模型性能。这种方法可以更好地探索参数空间,寻找更优的模型参数,从而提高学习算法的效果。 第二层优化问题涉及到视觉任务的优化,即如何通过图像处理和计算机视觉算法来解决具体的视觉问题。视觉任务可以包括目标检测、图像分割、姿态估计等多个方面。传统的视觉算法通常是通过定义特定的目标函数并使用迭代方法来进行优化。然而,这种方法可能会受到参数选择和初始条件的限制。因此,研究者们开始研究使用双层优化技术来提高视觉任务的性能。双层优化方法通过引入内部优化循环来逐步调整算法超参数和模型参数,以更好地适应特定的视觉任务。 总之,研究双层优化在学习和视觉中的应用,旨在改善学习算法和视觉系统的性能。这种方法可以通过优化学习算法的参数和模型参数,以及优化视觉任务的目标函数和算法参数,来改进学习和视觉的效果。这将有助于在学习和视觉领域取得更好的结果和应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值