本文是LLM系列文章,针对《DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation》的翻译。
摘要
训练深度神经网络通常在正向和反向传播期间都涉及大量的计算成本。传统的层丢弃技术在训练期间丢弃某些层以减少计算负担。然而,在前向传播过程中丢弃层会降低准确性,从而对训练过程产生不利影响。在本文中,我们提出了丢弃反向传播(DropBP),这是一种新的方法,旨在降低计算成本,同时保持准确性。DropBP在向后传播过程中随机丢弃层,不会偏离向前传播。此外,DropBP计算每一层的灵敏度,以分配适当的下降率,从而稳定训练过程。DropBP旨在通过反向传播提高训练过程的效率,从而能够使用反向传播加速完全微调和参数高效微调。具体而言,在QLoRA中使用DropBP可以减少44%的训练时间,将收敛速度提高到相同的损失水平1.5倍,并能够在LLaMA2-70B中的单个NVIDIA-100 80GiB GPU上以6.2倍大的序列长度进行训练。代码位于https://github.com/WooSunghyeon/dropbp。
1 引言
2 背景和动机
3 方法
4 评估
5 相关工作
6 结论和局限性
我们提出了DropBP,这是一种有效的算法,通过在反向传播过程中随机丢弃层来加速LLM的微调。我们的DropBP在前向传播过程中不会掉层,从而避免了可能对整个训练过程

本文介绍了DropBP技术,一种在反向传播中随机丢弃层以加速大型语言模型(LLM)微调的方法。DropBP通过计算层灵敏度分配合适的下降率,确保训练效率和准确性。实验显示,DropBP能减少44%的训练时间,提高1.5倍的收敛速度,并允许在单GPU上处理更长序列长度的训练。
已下架不支持订阅
280

被折叠的 条评论
为什么被折叠?



