多模态大模型

银晗

已于 2024-04-17 10:29:06 修改

阅读量743

点赞数 5

CC 4.0 BY-SA版权

文章标签：人工智能深度学习

于 2024-01-26 10:54:34 首次发布

本文链接：https://blog.youkuaiyun.com/RandyHan/article/details/135844218

Qwen-VL

Large Language Model: Qwen-VL adopts a large language model as its foundation component. The model
is initialized with pre-trained weights from Qwen-7B
Visual Encoder: The visual encoder of Qwen-VL uses the Vision Transformer (ViT) (Dosovitskiy et al., 2021)
architecture, initialized with pre-trained weights from Openclip’s ViT-bigG
位置感知视觉语言适配器：为了缓解由长图像特征序列引起的效率问题，Qwen-VL引入了一个视觉语言适配器，用于压缩图像特征。该适配器包括一个单层交叉注意模块，随机初始化。
- 该模块使用一组可训练向量（嵌入）作为查询向量query，并将来自视觉编码器的图像特征作为交叉注意操作的Key。这种机制将视觉特征序列压缩到固定长度的256。
- 为了对细粒度图像进行理解并保留位置信息，Qwen-VL 在交叉注意机制的Query-Key对中加入了2D绝对位置编码，以减轻在压缩过程中可能出现的位置细节丢失。长度为256的压缩图像特征序列随后被送入大型语言模型进行处理。