文章主要内容总结
本文核心探究表征叠加(representation superposition)对神经网络缩放律的影响,提出叠加是大语言模型(LLMs)损失随模型规模呈幂律衰减的关键驱动因素。通过修改Anthropic的玩具模型,用权重衰减控制叠加程度,系统研究不同叠加强度和数据分布下的损失缩放规律:弱叠加时,损失仅在数据特征频率呈幂律分布时才遵循幂律;强叠加时,因表征向量的几何重叠,损失普遍与模型维度成反比(缩放指数接近1)。实证验证开源LLMs处于强叠加状态,其损失缩放与玩具模型预测一致,且Chinchilla缩放律也符合这一结论。
创新点
- 首次明确表征叠加是神经网络缩放律的核心驱动因素,填补了LLMs叠加机制研究的空白。
- 提出用权重衰减精准调控叠加程度的方法,实现对弱/强叠加 regime 的系统研究。
- 揭示强叠加下损失与模型维度成反比的几何起源,解释了LLMs缩放律的普适性。
- 验证LLMs处于强叠加状态,建立了玩具模型与真实LLMs缩放行为的定量关联。
翻译部分(Markdown格式)
Abstract
当今大型语言模型(LLMs)的成功依赖于“更大模型性能更优”这一观察结论。然而,损失随模型规模呈幂律衰减的神经网络缩放律,其起源仍不明确。本文提出,表征叠加(即LLMs能表征的特征数量超过其维度)可能是损失的关键影响因素,并会导致神经网络缩放现象。基于Anthropic的玩具模型,我们通过权重衰减

订阅专栏 解锁全文
529

被折叠的 条评论
为什么被折叠?



