本文是LLM系列文章,针对《Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation》的翻译。
摘要
本文提出了第一项研究,探讨了多模态大型语言模型参数量化的潜力,以减轻视觉语言指令调整过程中遇到的重大资源限制。我们介绍了一种基于多模态预热的量化感知 Scale LeArning 方法,称为 QSLAW。该方法基于两项关键创新:(1) 学习量化 LLM 权重的分组比例因子,以减轻由激活异常值引起的量化误差并实现更有效的视觉语言指令调整;(2) 实现多模态热身,逐步整合语言和多模态训练样本,从而防止量化模型与多模态数据的过度拟合,同时确保多模态大型语言模型稳定适应下游视觉语言任务。大量实验表明,QSLAW 量化的模型性能与全精度模型相当,甚至超过全精度模型,同时将 VL 调整时间和 GPU 消耗减少多达 1.4 倍。我们的代码在 https://github.com/xjjxmu/QSLAW 发布。
1 引言
2 相关工作
3 方法
4 实验
5 结论
在本文中,我们首次研究了 MLLM 参数量化在减少 VL 指令调整期间的训练开销的潜力。我们提出了一种基于多模态预热 (QSLAW) 的量化感知量表学习方法。QSLAW 采用量化和最少的可训练缩放因子来实现高效的 VL 指令调优。引入了一种新的模态感知热身,以确保规模学习在保留其原始语言知识的同时获得足够的多模态指令监督。我们验证了 QSLAW 在各种设置下的有效性,展示

订阅专栏 解锁全文
7292

被折叠的 条评论
为什么被折叠?



