本文是LLM系列文章,针对《DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation》的翻译。
摘要
训练深度神经网络通常在正向和反向传播期间都涉及大量的计算成本。传统的层丢弃技术在训练期间丢弃某些层以减少计算负担。然而,在前向传播过程中丢弃层会降低准确性,从而对训练过程产生不利影响。在本文中,我们提出了丢弃反向传播(DropBP),这是一种新的方法,旨在降低计算成本,同时保持准确性。DropBP在向后传播过程中随机丢弃层,不会偏离向前传播。此外,DropBP计算每一层的灵敏度,以分配适当的下降率,从而稳定训练过程。DropBP旨在通过反向传播提高训练过程的效率,从而能够使用反向传播加速完全微调和参数高效微调。具体而言,在QLoRA中使用DropBP可以减少44%的训练时间,将收敛速度提高到相同的损失水平1.5倍,并能够在LLaMA2-70B中的单个NVIDIA-100 80GiB GPU上以6.2倍大的序列长度进行训练。代码位于https://github.com/WooSunghyeon/dropbp。