DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation

828 篇文章

已下架不支持订阅

本文介绍了DropBP技术,一种在反向传播中随机丢弃层以加速大型语言模型(LLM)微调的方法。DropBP通过计算层灵敏度分配合适的下降率,确保训练效率和准确性。实验显示,DropBP能减少44%的训练时间,提高1.5倍的收敛速度,并允许在单GPU上处理更长序列长度的训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation》的翻译。

DropBP:通过丢弃反向传播加速大型语言模型的微调

摘要

训练深度神经网络通常在正向和反向传播期间都涉及大量的计算成本。传统的层丢弃技术在训练期间丢弃某些层以减少计算负担。然而,在前向传播过程中丢弃层会降低准确性,从而对训练过程产生不利影响。在本文中,我们提出了丢弃反向传播(DropBP),这是一种新的方法,旨在降低计算成本,同时保持准确性。DropBP在向后传播过程中随机丢弃层,不会偏离向前传播。此外,DropBP计算每一层的灵敏度,以分配适当的下降率,从而稳定训练过程。DropBP旨在通过反向传播提高训练过程的效率,从而能够使用反向传播加速完全微调和参数高效微调。具体而言,在QLoRA中使用DropBP可以减少44%的训练时间,将收敛速度提高到相同的损失水平1.5倍,并能够在LLaMA2-70B中的单个NVIDIA-100 80GiB GPU上以6.2倍大的序列长度进行训练。代码位于https://github.com/WooSunghyeon/dropbp

1 引言

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值