多模态视觉语言模型

本文详细介绍了多模态视觉语言模型,包括BLIP、BLIP-2、LLaVA和QwenVL。BLIP通过图像-文本对比、匹配和语言建模损失进行预训练。BLIP-2利用冻结的图像和语言模型,通过Q-Former进行模态对齐。LLaVA在预训练阶段冻结视觉编码器和大语言模型,仅训练投影层。QwenVL由大语言模型、视觉编码器和视觉语言适配器组成,通过三个阶段进行训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 多模态大模型概述

1.1 模型范式

1)模态编码器:模态编码器主要是对来自不同模态的输入进行编码,来获得相应的特征,如视觉方面用ViT,CLIP VIT;音频模态用 C-Former,Whisper 等进行编码;
2)输入 Projector:输入projector 的任务是将其他模态的编码特征与文本特征空间的特征进行对齐,然后输入到 LLM Backbone 内,给定 X 模态-text数据集目标是最小化生成损失
3)LLM Backbone: 处理来自各种模态的表示,参与有关输入的语义理解、推理和决策。它产生输出 (A) 直接文本输出 (B) 其他模式的信号token ,这些信号token充当指导生成器是否生成 MM 内容的指令,如果是,则指定要生成的内容
4)Output Projector:将 LLM 的输出的 token 表征 S X S_X SX 转变成特征 H X H_X HX,然后输给生成器 M G X MG_X MGX。给定数据X-text数据集 { I X , t } \{I_X, t\} </

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值