文章主要内容 本文探讨了在固定计算预算下微调大型语言模型(LLMs)时的缩放规律,强调了数据构成(即示例数量和平均标记长度)对标记效率的影响。传统方法仅通过总标记数衡量训练数据,而本文提出将数据集体积定义为示例数(N)与平均标记长度(L)的乘积(V=N·L),并引入新的缩放定律公式: Accuracy = A V β M γ + E \text{Accuracy} = A V^{\beta} M^{\gamma} + E