论文地址:https://arxiv.org/abs/2309.12307
github地址:https://github.com/dvlab-research/LongLoRA
1. 背景与挑战
大语言模型(LLMs)通常在预定义的上下文长度下进行训练,例如 LLaMA 的 2048 个 token 和 Llama2 的 4096 个 token。然而,这种预定义的上下文长度限制了模型在处理长文档或回答长问题时性能。
主要挑战:
- 计算成本高昂: 扩展上下文长度会导致自注意力机制的计算成本呈二次增长,显著增加训练时间和 GPU 内存需求。例如,将上下文长度从 2048 扩展到 8192 会使自注意力层的计算成本增加 16 倍。
- 现有微调方法的局限性:
- 全量微调: 虽然效果最佳,但计算成本过高,普通研究者难以承受。例如,Position Interpolation 需要 32 个 A100 GPU 来将 LLaMA 模型从 2k 扩展到 8k 上下文长度,更长的上下文则需要 128 个 A100 GPU。
- 低秩适应(LoRA): 虽然比全量微调更高效,但在长上下文扩展方面效果不佳,困惑度较高。
2. LongLoRA:高效扩展上下文长度的解决方案
LongLoRA 旨在以更低的计算成本高效地扩展预训练 LLMs 的上下文长度,同时保持与全量微调相近的性能。

最低0.47元/天 解锁文章
2207

被折叠的 条评论
为什么被折叠?



