本文是LLM系列文章,针对《VisionZip: Longer is Better but Not Necessary in Vision Language Models》的翻译。
摘要
视觉语言模型的最新进展通过增加视觉token的长度来提高性能,使其比文本token长得多,并显著提高了计算成本。然而,我们观察到,由流行的视觉编码器(如CLIP和SigLIP)生成的视觉token包含大量冗余。为了解决这个问题,我们引入了VisionZip,这是一种简单而有效的方法,可以选择一组信息token作为语言模型的输入,减少视觉token冗余,提高效率,同时保持模型性能。所提出的VisionZip可以广泛应用于图像和视频理解任务,非常适合现实世界场景中的多回合对话,在这些场景中,以前的方法往往表现不佳。实验结果表明,VisionZip在几乎所有设置中都比以前的最先进方法性能提高了至少5%。此外,我们的方法显著提高了模型推理速度,将预填充时间提高了8倍,使LLaVA-Next 13B模型的推理速度比LLaVA-Next7B模型更快,同时获得了更好的结果。此外,我们分析了这种冗余的原因,并鼓励社区专注于提取更好的视觉特征,而不仅仅是增加token长度。我们的代码在