《CAME:Confidence-guided Adaptive Memory Efficient Optimization》论文笔记

员力LL

于 2024-03-27 22:00:01 发布

阅读量1.1k

点赞数 22

文章标签：论文阅读机器学习人工智能深度学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sfgsdfg2516/article/details/137090604

版权

文章提出了一种名为CAME的优化器，通过置信引导策略改进Adafactor，降低内存消耗，同时保持快速收敛和高精度。在大规模NLP任务中，CAME在大批量训练中表现出色，优于Adam和LAMB在内存使用和性能上。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

标题：《CAME:Confidence-guided Adaptive Memory Efficient Optimization》

一、摘要部分

1、提出问题：

Adam和LAMB等自适应梯度方法具有出色的性能，但是却需要额外的内存开销。而如Adafactor这样的内存效率优化器，性能却不如前者（在准确度、误差、速度等方面）

2、解决问题，提出模型：

使用一种置信引导策略，减少内存效率优化器的不稳定性
基于以上策略，提出CAME优化方法，实现以下两个目标：
1）快速收敛
2）低内存使用

3、结论

大量实验证明，CAME在各种NLP任务中训练具有稳定和卓越的性能。与Adam相比，对于32768的大批量BERT预训练，CAME具有更快的收敛速度和更高的精度。

二、介绍部分

1、问题：

1）提出大语言模型（LLM）的鲁棒性依赖于基于自适应梯度优化方法。而如Adam的自适应优化方法需要使用到额外的内存，随着模型规模越来越大，内存限制逐渐变为训练大语言模型的瓶颈。
2)最近出现如Adafactor等的优化器，能够将O（mn）的内存需求减少到O（m+n），大致方法就是用一个n×1和一个1×m的向量来近似代替一个n×m的矩阵，减少内存使用，如图：

虽说减少了内存的使用，但Adafactor在训练中存在性能下降的问题，这是由于它进行上述分解操作时引入误差，导致训练不稳定。
在这里插入图片描述

3）在大批量训练的情况下，内存消耗远高于一般训练，在批量大小超过某个界限时，收敛解的精度显著下降，目前还没有解决该问题的相关工作

2、解决方案：

使用置信引导策略来缓解Adafactor的不稳定性，在此基础之上提出CAME优化器，节约内存的同时获得更快的收敛速度和卓越的性能。

3、提出挑战

使用CAME优化器对BERT进行大批量训练

4、论文贡献如下：

1）探索了一种置信引导策略
2）提出了CAME优化算法
3）通过大量使用证明了CAME的强大性能

三、相关工作部分（了解即可）

1、Adafactor建议在每个训练步骤添加低秩近似（见介绍部分2）点）
2、SM3将二阶梯度矩阵的元素划分为集合构造近似矩阵
以上两种方法在训练中表现不佳且收敛缓慢
3、LARS分层自适应算法将ResNet-50的批量大小扩展到32k
4、LAMB优化器基于LARS，通过TPU v3 Pod可以在76分钟完成BERT训练
5、更大批量的训练对于大多数研究人员来说是昂贵且难以实现的，大批量训练很容易收敛到局部极小值，容易导致模型的泛化能力存在较大差距。传统方法通过调整超参数等方法缩小泛化差距。但很少人尝试减少大批量训练中的内存使用。

四、<手动加粗>方法部分（重点）<手动加粗>

1、Adafactor概述

在这里插入图片描述

其中在这里插入图片描述是第t步的梯度，是分解二阶矩后的两个低秩因子，是二阶矩的近似值，是当前的近似更新，是更新动量，θ是模型的参数，η是学习率，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。