DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量200

点赞数 2

CC 4.0 BY-SA版权

分类专栏： LLM Training 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136508043

LLM 日更同时被 2 个专栏收录

828 篇文章

已下架不支持订阅

LLM Training

97 篇文章

订阅专栏

本文介绍了DropBP技术，一种在反向传播中随机丢弃层以加速大型语言模型（LLM）微调的方法。DropBP通过计算层灵敏度分配合适的下降率，确保训练效率和准确性。实验显示，DropBP能减少44%的训练时间，提高1.5倍的收敛速度，并允许在单GPU上处理更长序列长度的训练。

本文是LLM系列文章，针对《DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation》的翻译。

摘要

训练深度神经网络通常在正向和反向传播期间都涉及大量的计算成本。传统的层丢弃技术在训练期间丢弃某些层以减少计算负担。然而，在前向传播过程中丢弃层会降低准确性，从而对训练过程产生不利影响。在本文中，我们提出了丢弃反向传播（DropBP），这是一种新的方法，旨在降低计算成本，同时保持准确性。DropBP在向后传播过程中随机丢弃层，不会偏离向前传播。此外，DropBP计算每一层的灵敏度，以分配适当的下降率，从而稳定训练过程。DropBP旨在通过反向传播提高训练过程的效率，从而能够使用反向传播加速完全微调和参数高效微调。具体而言，在QLoRA中使用DropBP可以减少44%的训练时间，将收敛速度提高到相同的损失水平1.5倍，并能够在LLaMA2-70B中的单个NVIDIA-100 80GiB GPU上以6.2倍大的序列长度进行训练。代码位于https://github.com/WooSunghyeon/dropbp。