《CAME:Confidence-guided Adaptive Memory Efficient Optimization》论文笔记

文章提出了一种名为CAME的优化器,通过置信引导策略改进Adafactor,降低内存消耗,同时保持快速收敛和高精度。在大规模NLP任务中,CAME在大批量训练中表现出色,优于Adam和LAMB在内存使用和性能上。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

标题:《CAME:Confidence-guided Adaptive Memory Efficient Optimization》

一、摘要部分

1、提出问题:

Adam和LAMB等自适应梯度方法具有出色的性能,但是却需要额外的内存开销。而如Adafactor这样的内存效率优化器,性能却不如前者(在准确度、误差、速度等方面)

2、解决问题,提出模型:

使用一种置信引导策略,减少内存效率优化器的不稳定性
基于以上策略,提出CAME优化方法,实现以下两个目标:
1)快速收敛
2)低内存使用

3、结论

大量实验证明,CAME在各种NLP任务中训练具有稳定和卓越的性能。与Adam相比,对于32768的大批量BERT预训练,CAME具有更快的收敛速度和更高的精度。

二、介绍部分

1、问题:

1)提出大语言模型(LLM)的鲁棒性依赖于基于自适应梯度优化方法。而如Adam的自适应优化方法需要使用到额外的内存,随着模型规模越来越大,内存限制逐渐变为训练大语言模型的瓶颈。
2)最近出现如Adafactor等的优化器,能够将O(mn)的内存需求减少到O(m+n),大致方法就是用一个n×1和一个1×m的向量来近似代替一个n×m的矩阵,减少内存使用,如图:

虽说减少了内存的使用,但Adafactor在训练中存在性能下降的问题,这是由于它进行上述分解操作时引入误差,导致训练不稳定。
在这里插入图片描述

3)在大批量训练的情况下,内存消耗远高于一般训练,在批量大小超过某个界限 时,收敛解的精度显著下降,目前还没有解决该问题的相关工作

2、解决方案:

使用置信引导策略来缓解Adafactor的不稳定性,在此基础之上提出CAME优化器,节约内存的同时获得更快的收敛速度和卓越的性能。

3、提出挑战

使用CAME优化器对BERT进行大批量训练

4、论文贡献如下:

1)探索了一种置信引导策略
2)提出了CAME优化算法
3)通过大量使用证明了CAME的强大性能

三、相关工作部分(了解即可)

1、Adafactor建议在每个训练步骤添加低秩近似(见介绍部分2)点)
2、SM3将二阶梯度矩阵的元素划分为集合构造近似矩阵
以上两种方法在训练中表现不佳且收敛缓慢
3、LARS分层自适应算法将ResNet-50的批量大小扩展到32k
4、LAMB优化器基于LARS,通过TPU v3 Pod可以在76分钟完成BERT训练
5、更大批量的训练对于大多数研究人员来说是昂贵且难以实现的,大批量训练很容易收敛到局部极小值,容易导致模型的泛化能力存在较大差距。传统方法通过调整超参数等方法缩小泛化差距。但很少人尝试减少大批量训练中的内存使用。

四、<手动加粗>方法部分(重点)<手动加粗>

1、Adafactor概述

在这里插入图片描述

其中在这里插入图片描述是第t步的梯度,在这里插入图片描述是分解二阶矩后的两个低秩因子,在这里插入图片描述是二阶矩的近似值, 在这里插入图片描述是当前的近似更新,在这里插入图片描述是更新动量,θ是模型的参数,η是学习率,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值