本文是LLM系列文章,针对《Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling》的翻译。
摘要
大型语言模型是在大量的网络碎片上训练的,这些碎片通常是非结构化的、嘈杂的和措辞不当的。当前的缩放定律表明,从这些数据中学习需要大量的计算和数据,这些计算和数据会随着训练模型的大小而增长。这是不可行的,因为与预训练相关的大量计算成本和持续时间,以及网络上高质量数据的稀缺性。在这项工作中,我们提出了网络转述增强预训练(WRAP),它使用现成的指令调整模型,提示以特定的风格(如“像维基百科”或“问答格式”)转述网络上的文档,以联合对LLM进行真实和合成转述的预训练。首先,我们展示了在C4数据集上使用WRAP,它是自然噪声的,可以将预训练速度提高约3倍。在相同的训练前计算预算下,它在Pile的不同子集中平均提高了10%以上的困惑,并在13个任务中提高了2%以上的零样本问答准确率。其次,我们研究了重新措辞风格对模型性能的影响,深入了解了训练数据的组成如何影响OOD环境中LLM的性能。我们的收益归因于这样一个事实,即重新措辞的合成数据比真正的数据具有更高的效用,因为它(i)包含了密切反映下游评估风格的风格多样性,以及ÿ