主要是为了更好地理解Qlora如何利用量化较少训练内存,学习永无止境,紧随其后;
QLORA首次提出了量化4bit而没有任何性能的损失,作者提出了一种新的高精度技术来量化预训练模型参数到4bit,并且添加了一个小的可学习的低秩适配权重,他的参数更新通过反向传播梯度量化的权重;为LLM的每一层添加了少量的可训练参数(适配器),并冻结了所有原始参数。这样对于微调,只需要更新适配器权重,这可以显著减少内存占用。具体量化博客讲的不错(126条消息) 闲话模型压缩之量化(Quantization)篇_模型压缩量化_ariesjzj的博客-优快云博客(126条消息) 模型压缩之量化入门笔记||量化基本公式的理解||量化过程可视化||LSQ公式理解_Bitterest的博客-优快云博客(126条消息) 半精度(FP16),单精度(FP32),双精度(FP64)_我叫夏满满的博客-优快云博客
Qlora提出了一种新方法,能在量化模型至4bit时保持性能,通过使用低秩适配权重和反向传播中量化的梯度更新。在大型语言模型(LLM)中,只更新少量的适配器参数,降低了微调时的内存需求。这种方法有助于模型压缩,尤其是对于资源受限的环境。
183

被折叠的 条评论
为什么被折叠?



