目录
Qwen2-VL
Architecture
ViT
采用 2D-RoPE 作为位置编码
PatchMerger
先做 LayerNorm,再用一个简单的 MLP 将 2x2 相邻的 visual tokens 压缩成一个
M-RoPE
Multimodal Rotary Position Embedding
temporal + height + width
Chameleon
Qwen-VL
2023.08
和 Video-LLaVA 采用相同的方案,Visual Encoder 赋予视觉能力
Architecture
LM + Visual Encoder + Projector
Visual Encoder 采用 Openclip 中的 ViT
Visual Encoder
处理特定尺寸的图片 224x224、448x448
使用