本文是LLM系列文章,针对《On Speculative Decoding for Multimodal Large Language Models》的翻译。
摘要
多模态大型语言模型(MLLM)的推理速度很慢,因为它们的大型语言模型主干受到内存带宽瓶颈的影响,并自动回归生成token。本文探讨了推测解码在提高MLLM推理效率方面的应用,特别是LLaVA 7B模型。我们证明,仅使用语言的模型可以作为LLaVA 7B推测解码的良好草稿模型,绕过了草稿模型对图像标记及其相关处理组件的需求。我们在三个不同任务上的实验表明,使用我们从头开始训练的115M参数语言模型,推测解码可以实现高达2.37倍的内存限制加速。此外,我们引入了一个紧凑的LLaVA草稿模型,其中包含一个图像适配器,该模型在图像字幕方面显示了边际性能提升,同时在其他任务中保持了可比的结果。
1 引言
2 背景
3 SPD用于MLLMs
4 实验
5 结论
在本文中,我们首次尝试在使用多模态大型语言模型时使用推测解码来加速推理,特别是在图像文本域。我们表明,使用纯文本草稿模型比使