ORYX MLLM: ON-DEMAND SPATIAL-TEMPORAL UNDERSTANDING AT ARBITRARY RESOLUTION

最新推荐文章于 2025-06-04 23:56:57 发布

尔呦

最新推荐文章于 2025-06-04 23:56:57 发布

阅读量756

点赞数 14

分类专栏： paper reading 文章标签：深度学习

本文链接：https://blog.youkuaiyun.com/weixin_44994838/article/details/142761218

版权

paper reading 专栏收录该内容

22 篇文章

订阅专栏

问题引入

视觉数据有不同的来源，图片视频3d数据等，在spatial和temporal维度上尺度都是不一致的，当前的MLLM将数据进行标准化到固定的尺度之后得到固定数目的token，本文提出的方法专门针对不同尺度的输入；
本文主要的创新点是1）pre-trained visual encoder OryxViT 2)dynamic compression technique来将尺寸特别大的数据进行压缩 3）Enhanced data curation and training strategies

methods

原本vit对于一张输入的尺寸为 $H\times W$ 的图片，首先将其resize到固定的大小 $N\times N$ ，之后分为 $p\times p$ 大小的patch，得到一个长度为 $(N/p)\times (N/p)$ 的sequence，此时还会加上一个固定长度的positional encoding，本文希望首先支持不同尺度的输入，对于position embedding部分，首先预设定了一个对应 $2048\times 2048$ 尺寸的position embedding，对于更大的尺寸，可以进行差值操作得到；对于原始的输入也去掉了resize这一个步骤；对于不同尺度输入还有一个问题就是在batch处理的操作，此时是将不同的item在 $l$ 维度也就是sequence length这一个维度进行拼接，之后使用flash attention中的ariable-length attention operator操作进行处理；
ON-DEMAND DYNAMIC COMPRESSION：对于不同context的数据区别对待，整体分为图片，短视频，长视频，分别对应的downsampler为 $d_1,d_2,d_3$ ,其中 $d_3=4d_2=16d_1$ ,downsample $f_H$ 后得到的low resolution feature map $f_L$ ，为了减小downsample带来的影响，以 $f_H$ 为 $k, v$ ，以 $f_L$ 为 $q$ 进行cross attention操作；
Long-Form Temporal Training：对于长视频，采用caption和differ两个任务进行训练；
对于3d数据，多视角图片不像视频那样存在temporal上面的关系，所以使用tracking anything进行标注数据，使得同一个物体在不同image中的label是一样的
训练的pipeline：两个阶段，1）使用图片文本对进行训练2）混合训练多类型数据