视觉语言模型在各种多模态任务上取得了显著的成功,但经常受到有限上下文窗口和处理高分辨率图像输入和视频的高计算成本的瓶颈。视觉压缩可以通过减少视觉令牌数量避免该问题。先前方法使用额外模块压缩视觉令牌并强制LLM理解压缩的令牌。然而,LLM对视觉令牌的理解范式在压缩学习过程中没有充分利用。本文提出了VoCo-LLaMA,这是第一种使用LLM压缩视觉视觉令牌的方法。通过在视觉指令调整过程中引入视觉压缩令牌并利用注意力蒸馏,本文方法蒸馏了LLM如何将LLM视觉令牌理解到它们对VoCo令牌的处理。
VoCo-LLaMA
本文VoCo-LLaMA算法引入特殊的视觉压缩(Vision Compression,VoCo)令牌,以利用LLM压缩和理解图像压缩表示的能力。大语言模型输入序列由连接视觉令牌,特殊的VoCo令牌和文本令牌形成。
X = ( V , V o C o , T ) = ( V 0 , … , V n , V o C o , T 0 , … , T m ) \mathcal{X}=(\mathcal{V},VoCo,\mathcal{T})=(V_{0},\ldots,V_{n},VoCo,T_{0},\ldots,T_{m}) X=(V,VoCo,T)=(V0,…,Vn,VoCo,T0,…,