Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

最新推荐文章于 2025-11-26 15:49:07 发布

UnknownBody

最新推荐文章于 2025-11-26 15:49:07 发布

阅读量1.1k

点赞数 29

CC 4.0 BY-SA版权

文章标签：语言模型人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136056818

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文是LLM系列文章，针对《Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling》的翻译。

重新表述Web：计算和数据高效语言建模的诀窍

摘要
1 引言
2 相关工作
3 WRAP：网络重述增强预训练
4 困惑度评估
5 零样本任务
6 分析和消融实验
7 局限性和机遇
8 结论

摘要

大型语言模型是在大量的网络碎片上训练的，这些碎片通常是非结构化的、嘈杂的和措辞不当的。当前的缩放定律表明，从这些数据中学习需要大量的计算和数据，这些计算和数据会随着训练模型的大小而增长。这是不可行的，因为与预训练相关的大量计算成本和持续时间，以及网络上高质量数据的稀缺性。在这项工作中，我们提出了网络转述增强预训练（WRAP），它使用现成的指令调整模型，提示以特定的风格（如“像维基百科”或“问答格式”）转述网络上的文档，以联合对LLM进行真实和合成转述的预训练。首先，我们展示了在C4数据集上使用WRAP，它是自然噪声的，可以将预训练速度提高约3倍。在相同的训练前计算预算下，它在Pile的不同子集中平均提高了10%以上的困惑，并在13个任务中提高了2%以上的零样本问答准确率。其次，我们研究了重新措辞风格对模型性能的影响，深入了解了训练数据的组成如何影响OOD环境中LLM的性能。我们的收益归因于这样一个事实，即重新措辞的合成数据比真正的数据具有更高的效用，因为它（i）包含了密切反映下游评估风格的风格多样性，以及（ii）比网络抓取的数据具有更好的“质量”。

1 引言

2 相关工作

3 WRAP：网络重述增强预训练

4 困惑度评估

5 零样本任务

6 分析和消融实验

7 局限性和机遇

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。