LongLoRA：高效扩展大语言模型上下文长度的微调方法

最新推荐文章于 2026-01-02 23:51:00 发布

原创

最新推荐文章于 2026-01-02 23:51:00 发布 · 1.8k 阅读

CC 4.0 BY-SA版权

文章标签：

论文地址：https://arxiv.org/abs/2309.12307
github地址：https://github.com/dvlab-research/LongLoRA

大语言模型（LLMs）通常在预定义的上下文长度下进行训练，例如 LLaMA 的 2048 个 token 和 Llama2 的 4096 个 token。然而，这种预定义的上下文长度限制了模型在处理长文档或回答长问题时性能。

主要挑战：

计算成本高昂： 扩展上下文长度会导致自注意力机制的计算成本呈二次增长，显著增加训练时间和 GPU 内存需求。例如，将上下文长度从 2048 扩展到 8192 会使自注意力层的计算成本增加 16 倍。
现有微调方法的局限性：
- 全量微调： 虽然效果最佳，但计算成本过高，普通研究者难以承受。例如，Position Interpolation 需要 32 个 A100 GPU 来将 LLaMA 模型从 2k 扩展到 8k 上下文长度，更长的上下文则需要 128 个 A100 GPU。
- 低秩适应（LoRA）： 虽然比全量微调更高效，但在长上下文扩展方面效果不佳，困惑度较高。