When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale

最新推荐文章于 2025-06-10 15:33:52 发布

swimming_123

最新推荐文章于 2025-06-10 15:33:52 发布

阅读量845

点赞数 12

文章标签：剪枝算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_74082980/article/details/142778818

版权

困惑度方法剪枝大语言模型数据集至30%

文章地址：2309.04564 (arxiv.org)

背景

超越神经缩放法则：在机器学习领域，神经缩放法则描述了模型性能与模型大小、数据量之间通常遵循幂律关系。超越神经缩放法则旨在寻找突破这种传统幂律缩放的方法，以实现更高效的模型训练和性能提升。关键在于根据数据修剪指标修剪数据，影响模型的缩放规律。

网络爬取的大规模语料库嘈杂质量较低，已经存在一些启发式剪枝方法：修剪掉重复文本，特殊字符、非英文文本、人工管理“blocklist”网站的数据，设定文本长度阈值等。这些手动管理的过滤器可以筛选某些噪声实例，但针对单个训练实例还未有最佳数据质量度量。

本篇文章通过数据剪枝探索更广泛严谨的数据质量评估标准。

相对于语言，目前数据剪枝研究主要在集中计算机视觉上。在语言领域，已有研究针对微调和人工构建高质量数据集方法。但微调在少量数据上对复杂计算容忍度较高，人工构建高质量数据库耗时且资源密集。

本文主要探究三个问题：

1.能否从预训练数据集中删除影响最小的样本并实现类似或更好的性能？

2.估计数据质量简单方法是否优于复杂且计算成本更高的方法？

3.哪些指标评估数据质量最好？

研究者通过严格评估三个自动修剪指标来探索这些问题：困惑度（perplexity）、EL2N、记忆度（memorization）.

方法

$eq?P_%7B%5Cxi%7D%20%3D%20%5C%7Bz_i%20%5Cin%20D%20%7C%20Criteria%28Score_%7B%5Cxi%7D%28z_i%29%29%5C%7D$

根据算法评分筛选样本集 $eq?P_%7B%5Cxi%7D$

$%20P_%7B%5Cxi%7D$

从 $eq?D$ 中移除 $eq?P_%7B%5Cxi%7D$

$eq?P_%7B%5Ctau%7D%28M_%7B%5Chat%7BD%7D_%7B%5Cxi%7D%7D%29%20%5Cgeq%20P_%7B%5Ctau%7D%28M_D%29$

在筛选集上模型性能不会降低

1.perplexity

详细解释：几句话说明白Perplexity - 知乎 (zhihu.com)

Perplexity of fixed-length models (huggingface.co)

2.EL2N

3.memorization

实验

实验与结论

1、删除简单实例可提高性能

实验发现最高性能模型版本并不总是依赖于“容易”的数据（低perplexity、低EL2N或高memorization），而保留“复杂”数据更有益于模型训练。

“容易”数据的解释

基于Perplexity：在自然语言处理中，Perplexity是衡量模型预测能力的一个指标，低Perplexity意味着模型对文本的预测较好。因此，“容易”数据指的是那些模型预测时表现出低Perplexity的数据点，即模型处理起来相对简单的内容。
基于EL2N（Expected Likelihood Error Squared Norm）：这是一个评估模型初始错误的指标，低EL2N值表示数据点的初始预测误差较小。这里的“容易”数据同样指的是模型初期就能较好处理的数据。
在记忆视角下的“容易”：在讨论模型的过度拟合或记忆能力时，“容易”数据指的是那些模型能够非常快速且彻底学习到的数据点，通常是那些具有显著特征或重复出现的模式，这些数据点可能不是从预测难度角度定义的“容易”，但它们被模型高度记忆。

2、简单修建指标优于更复杂的方法

3、较大参考模型更有剪枝优势

4、在更干净数据上训练的参考模型会产生更好的剪枝信号

5、早期参考模型checkpoint可作为有效的评分模型

6、基于困惑度的剪枝改进适用于更大规模的模型

博客等级

码龄3年

20
原创

169
点赞

187
收藏

113
粉丝

关注

私信

热门文章

上一篇：: 2024.11.1

下一篇：: ubantu调整字体

最新评论

1.机器学习介绍
优快云-Ada助手: 推荐 Python入门技能树：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python
微信小程序嵌入SM.MS图床静态图片
优快云-Ada助手: 恭喜您写下了第一篇博客！嵌入SM.MS图床静态图片这个主题很实用，希望您能继续分享更多关于微信小程序的技巧和经验。下一步可以考虑加入一些实际案例或者更深入的分析，让读者能够更好地理解和应用您的教程。期待您的下一篇作品！祝您博客越办越好！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

基于 GQA 与 MoE 的古诗词生成模型优化 llm项目以及对应八股 1975

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。