本文是LLM系列文章,针对《The Fine-Grained Complexity of Gradient Computation for Training Large Language Models》的翻译。
摘要
大型语言模型(LLM)在过去几年中做出了重要贡献。要训练LLM,需要交替运行“正向”计算和“反向”计算。前向计算可以看作注意力函数评估,而后向计算可以看成梯度计算。在Alman和Song之前的工作中,已经证明了在某些参数状态下,前向步骤可以在几乎线性的时间内执行,但在剩余的参数状态下没有真正的次二次时间算法,除非流行的假设SETH是假的。在这项工作中,我们对计算一层注意力网络的损失函数梯度这一看似困难的问题,以及LLM训练的整个过程,给出了几乎相同的结果。这完全体现了LLM训练每一步的细粒度复杂性。
1 引言
2 相关工作
3 前言
4 一般上限的证明草图
5 一般下限
6 结论
我们的结果对训练LLM所需的运行时间进行了完整的细粒度分析。我们证明了存在一个取决于参数B的阈值,即参数矩阵项的大小。在B很小的情况下,通过使用我们的新算法进行反向计算,可以实现LLM训练的近似线性时间算法。在B很大的情况下,我们的算法不仅不适用,而且我们表明不可能设计出一个非常快的算法(除非在可满足性算法方面取得突破,从而反驳流行的SETH

本文深入探讨了训练大型语言模型(LLM)时梯度计算的复杂性,提供了一种新的算法,并分析了不同参数情况下训练的时间复杂度。在参数适当时,提出近线性时间算法,而在参数较大时,揭示了快速算法的局限性,为LLM设计和优化提供了指导。
订阅专栏 解锁全文
2189

被折叠的 条评论
为什么被折叠?



