Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量370

点赞数 4

CC 4.0 BY-SA版权

分类专栏： LLM Daily Multimodal 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/142760970

LLM Daily 同时被 2 个专栏收录

1689 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Multimodal

164 篇文章

订阅专栏

本文是LLM系列文章，针对《Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation》的翻译。

摘要

本文提出了第一项研究，探讨了多模态大型语言模型参数量化的潜力，以减轻视觉语言指令调整过程中遇到的重大资源限制。我们介绍了一种基于多模态预热的量化感知 Scale LeArning 方法，称为 QSLAW。该方法基于两项关键创新：（1）学习量化 LLM 权重的分组比例因子，以减轻由激活异常值引起的量化误差并实现更有效的视觉语言指令调整;（2）实现多模态热身，逐步整合语言和多模态训练样本，从而防止量化模型与多模态数据的过度拟合，同时确保多模态大型语言模型稳定适应下游视觉语言任务。大量实验表明，QSLAW 量化的模型性能与全精度模型相当，甚至超过全精度模型，同时将 VL 调整时间和 GPU 消耗减少多达 1.4 倍。我们的代码在 https://github.com/xjjxmu/QSLAW 发布。

1 引言

2 相关工作

3 方法

4 实验

5 结论

在本文中，我们首次研究了 MLLM 参数量化在减少 VL 指令调整期间的训练开销的潜力。我们提出了一种基于多模态预热（QSLAW）的量化感知量表学习方法。QSLAW 采用量化和最少的可训练缩放因子来实现高效的 VL 指令调优。引入了一种新的模态感知热身，以确保规模学习在保留其原始语言知识的同时获得足够的多模态指令监督。我们验证了 QSLAW 在各种设置下的有效性，展示