困惑度方法剪枝大语言模型数据集至30%
背景
超越神经缩放法则:在机器学习领域,神经缩放法则描述了模型性能与模型大小、数据量之间通常遵循幂律关系。超越神经缩放法则旨在寻找突破这种传统幂律缩放的方法,以实现更高效的模型训练和性能提升。关键在于根据数据修剪指标修剪数据,影响模型的缩放规律。
网络爬取的大规模语料库嘈杂质量较低,已经存在一些启发式剪枝方法:修剪掉重复文本,特殊字符、非英文文本、人工管理“blocklist”网站的数据,设定文本长度阈值等。这些手动管理的过滤器可以筛选某些噪声实例,但针对单个训练实例还未有最佳数据质量度量。
本篇文章通过数据剪枝探索更广泛严谨的数据质量评估标准。
相对于语言,目前数据剪枝研究主要在集中计算机视觉上。在语言领域,已有研究针对微调和人工构建高质量数据集方法。但微调在少量数据上对复杂计算容忍度较高,人工构建高质量数据库耗时且资源密集。
本文主要探究三个问题:
1.能否从预训练数据集中删除影响最小的样本并实现类似或更好的性能?
2.估计数据质量简单方法是否优于复杂且计算成本更高的方法?
3.哪些指标评估数据质量最好?
研究者通过严格评估三个自动修剪指标来探索这些问题:困惑度(perplexity)、EL2N、记忆度(memorization).
方法
根据算法评分筛选样本集
从中移除
在筛选集上模型性能不会降低
1.perplexity
详细解释:几句话说明白Perplexity - 知乎 (zhihu.com)
Perplexity of fixed-length models (huggingface.co)
2.EL2N
3.memorization
实验
实验与结论
1、删除简单实例可提高性能
实验发现最高性能模型版本并不总是依赖于“容易”的数据(低perplexity、低EL2N或高memorization),而保留“复杂”数据更有益于模型训练。
“容易”数据的解释
-
基于Perplexity:在自然语言处理中,Perplexity是衡量模型预测能力的一个指标,低Perplexity意味着模型对文本的预测较好。因此,“容易”数据指的是那些模型预测时表现出低Perplexity的数据点,即模型处理起来相对简单的内容。
-
基于EL2N(Expected Likelihood Error Squared Norm):这是一个评估模型初始错误的指标,低EL2N值表示数据点的初始预测误差较小。这里的“容易”数据同样指的是模型初期就能较好处理的数据。
-
在记忆视角下的“容易”:在讨论模型的过度拟合或记忆能力时,“容易”数据指的是那些模型能够非常快速且彻底学习到的数据点,通常是那些具有显著特征或重复出现的模式,这些数据点可能不是从预测难度角度定义的“容易”,但它们被模型高度记忆。
2、简单修建指标优于更复杂的方法
3、较大参考模型更有剪枝优势
4、在更干净数据上训练的参考模型会产生更好的剪枝信号
5、早期参考模型checkpoint可作为有效的评分模型
6、基于困惑度的剪枝改进适用于更大规模的模型