论文:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
地址:https://github.com/QwenLM

总结:Qwen VL是一种旨在感知和理解文本和图像的大规模视觉语言模型(LVLM)。以Qwen LM为基础,通过精心设计的(i)visual receptor、(ii)input-output interface,、(iii)三阶段训练pipeline和(iv)multilingual multimodal cleanedcorpus赋予它视觉能力。除了传统的图像描述和问答之外,我们还通过对齐image-caption-box来实现Qwen VL的visual grounding和文本阅读能力。
2. Methodology
2.1 Model Architecture
Qwen-VL的网络架构由三部分组成,模型参数的详细信息显示在表1中:

大型语言模型Large Language Model:Qwen VL使用Qwen-7B作为其语言模型,

最低0.47元/天 解锁文章
3421

被折叠的 条评论
为什么被折叠?



