LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images-优快云博客

本文链接：https://blog.youkuaiyun.com/qgh1223/article/details/143446820

传统的大多模态模型（Large Multimodal Model，LMM）关注于固定的尺寸和有限的分辨率。本文以GPT-4V和LLaVa-1.5为代表，揭示了视觉编码策略的根本性系统缺陷。本文指出大多模态模型可以有效地感知任何长宽比和高分辨率的图像。

概述

为了实现LMM模型在多种长宽比和高分辨率的图像感知，存在两个主要挑战：1. 适应性：由于视觉编码器是在固定分辨率上预训练的，需要编码器处理大范围长宽比和分辨率的图像是困难的。简单的图像插值如果偏离预训练场景很远可能会导致分布不均匀问题。2. 效率：直接使用ViT编码高分辨率图像需要对于图像尺寸二次的计算复杂度。另外，LLM处理高分辨率图像中大量视觉令牌可能计算成本更高。

本文方法

模块化视觉编码

为了解决有不同长宽比的高分辨率图像，一种简单的方法是将ViT的位置嵌入插值到目标形状，以便作为一个整体进行直接编码。然而，由于二次计算成本和分布外问题导致的性能下降，这种方法是次优的。为了解决这种挑战，本文给出了一种模块化视觉编码策略，核心策略是将原生分辨率图像划分为更小的可变尺寸切片，其中每个切片的形状不会偏离ViT的标准预设置太远。通过可变大小的切片，本文的LLaVa UHD可以实现对原生分辨率图像的完全自适应，而无需填充或扭曲形状的整形。

高分辨率图像划分策略

图像切片策略的核心是决定高分辨率图像的分割。每个切片的分辨率变化最小。给定分辨率 $W_{I},H_{I})$ 的图像和在分辨率 $W_{v},H_{v})$ 预训练的ViT模型。首先决定处理图像的切片数量： $N=\lceil \frac{W_{I}\times H_{I}}{W_{v}\times H_{v}}\rceil$ 。之后分解切片数量到 $m$ 行和 $n$ 列。为了选择最合适的划分，定义测量与标准ViT预训练设定偏离程度的分数：
$S(W_{I},H_{I},W_{v},H_{v},m,n)=-|\log \frac{W_{I}\times n}{H_{I}\times m}-\log \frac{W_{v}}{H_{v}}|$

实践中，注意到某些情况下，N可能只有集中可能的因式分解方案，尤其是素数，这可能导致选择有限，从而导致图像的极端分割。为了解决这个问题，除了理想的切片数量，也允许对切片数量进行略微修改 $N - 1$ ， $N + 1$ 以得到更多的划分选择。

任意长宽比切片编码

大部分已有的LMM使用静态的分辨率执行图像切片编码。这基本上阻止了对原始分辨率的完全自适应，因为只有几个预定义的固定形状切片可用。另外，静态切片分辨率不可避免地导致填充或形状扭曲的大小调整，这会损害性能、效率甚至准确性。

为了解决这个问题，本文提出按划分策略给出的长宽比对图像切片进行编码。具体地，根据长宽比按照比例调整原始图像的大小，使得补丁数量最大限度地符合预训练预算。然后按照ViT预训练设置，将预训练一维位置嵌入序列重塑为二维格式 $P\in \mathbb{R}^{q\times q\times l}$ ，其中 $M=q\times q$ 。然后二维插值 $P$ 到根据视觉编码的划分策略对应的切片分辨率。

压缩层

高分辨率图像需要LLM处理显著更多的视觉令牌，这占据了计算的主要部分。例如，672x1008分辨率的图像输入LLaVA-1.5将产生3456视觉令牌。为了解决这个问题，本文使用共享的感知重采样层压缩每个图像切片的视觉令牌。具体地，通过交叉注意力使用一组查询向量将视觉编码器输出的图像令牌重新采样到较低数字。与流行的MLP视觉投影方法相比，感知重采样器无论图像分辨率如何，都能保持固定且负担得起的视觉令牌数量，因此可以与高分辨率图像理解兼容。