多模态大模型

Qwen-VL

模型架构

  • Large Language Model: Qwen-VL adopts a large language model as its foundation component. The model
    is initialized with pre-trained weights from Qwen-7B
  • Visual Encoder: The visual encoder of Qwen-VL uses the Vision Transformer (ViT) (Dosovitskiy et al., 2021)
    architecture, initialized with pre-trained weights from Openclip’s ViT-bigG
  • 位置感知视觉语言适配器:为了缓解由长图像特征序列引起的效率问题,Qwen-VL引入了一个视觉语言适配器,用于压缩图像特征。该适配器包括一个单层交叉注意模块,随机初始化。
    • 该模块使用一组可训练向量(嵌入)作为查询向量query,并将来自视觉编码器的图像特征作为交叉注意操作的Key。这种机制将视觉特征序列压缩到固定长度的256。
    • 为了对细粒度图像进行理解并保留位置信息,Qwen-VL 在交叉注意机制的Query-Key对中加入了2D绝对位置编码,以减轻在压缩过程中可能出现的位置细节丢失。长度为256的压缩图像特征序列随后被送入大型语言模型进行处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值