发表时间:24 May 2024
论文链接:https://arxiv.org/pdf/2405.15738
作者单位:Department of Automation, Tsinghua University
Motivation:高分辨率大型多模态模型 (LMM) 遇到了过度视觉标记和二次视觉复杂性的挑战。当前的高分辨率 LMM 仍然生成了过多的视觉标记。然而,视觉token的冗余是关键问题,因为它会导致更多的计算。
解决方法:为了缓解这个问题,我们提出了 ConvLLAVA,它使用 ConvNeXt,一个分层主干,作为 LMM 的视觉编码器来替换 Vision Transformer (ViT)。在层次化骨干网络中,特征在各个阶段逐步被压缩。与 ViT 仅进行14倍压缩相比,它们将视觉特征压缩了32倍。因此,在相同分辨率下,它们生成的视觉标记数量不到 ViT 的四分之一,大大减轻了LLM(大语言模型)的计算负担。此外,层次化视觉编码器通常设计为线性空间复杂度,有效地解决了过多视觉标记和二次视觉复杂度的问题。 作者选择了 ConvNeXt ,因为这个网络有现成的对比学习预训练好的权重(CLIP)。 ConvLLAVA 将高分辨率图像压缩为信息丰富的视觉特征,有效地防止了过度视觉标记的生成。为了提高 ConvLLAVA 的能力,我们提出了两个关键的优化:
-
由于低分辨率预训练的 ConvNeXt 在直接应用于高分辨率时表现不佳,因此我们对其进行更新以bridge the gap(主流的方法一般都会冻结 vision encoder,但本文作者经过实验发现,更新 ConvNeXt 的参数能获得更好的效果,显著提升其在高分辨率任务中的性能)。
-
此外,由于ConvNeXt的原始压缩比不足以获得更高的分辨率输入,我们训练了一个连续的阶段(五个阶段)来进一步压缩视觉标记,从而减少冗余。这些优化使 ConvLLAVA 支持 1536×

最低0.47元/天 解锁文章
854

被折叠的 条评论
为什么被折叠?



