图文多模态大模型综述

本文回顾图文多模态大模型的关键进展,包括CLIP、ViLT、VLMo等模型。CLIP采用双塔结构,而ViLT使用单塔结构,VLMo结合两者优点。这些模型遵循预训练-微调方案,通过不同方式融合图像和文本信息,以处理多模态任务。随着技术发展,多模态大模型已成为深度学习热点,未来将在多模态信息处理中发挥更大作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

自去年底ChatGPT发布后,大模型技术呈井喷式发展态势,学术界和工业界几乎每天都在刷新各个方向的SOTA榜单。随着大模型技术的发展,人们逐渐意识到多模态将是大模型发展的必经之路。其中,图文多模态大模型是一种结合了图像和文本两种模态信息的深度学习模型,本文将重点回顾这一领域的关键进展。

纵观多模态大模型的技术演进,也完全遵循了预训练-微调的整体方案。根据预训练模型中图文模态的交互方式,主要分为以下两种:

  • 双塔结构:代表架构是 CLIP。双塔即一个视觉 Encoder 建模图片信息,一个文本 Encoder 建模文本信息,图像和文本的特征向量可以预先计算和存储,模态交互是通过图像和文本特征向量的余弦相似度来处理。这类模型的优点是处理多模态检索任务,但无法处理复杂的分类任务;

  • 单塔结构:代表架构是ViLT。单塔即一个视觉-文本 Encoder 同时建模图片信息和文本信息,使用 Transformer 模型对图像和文本特征进行交互。这类模型的优点是可以充分地将多模态的信息融合,更擅长做多模态分类任务,检索任务较慢。

CLIP

CLIP由 OpenAI 构建,作为多模态领域的经典之作,被广泛应用于当今多模态模型的基础模型。CLIP通过自监督的方式,使用 4亿对(图像,文本)数据进行训练,它将图像和文本映射到一个共享的向量空间中,从而使得模型能够理解图像和文本之间的语义关系,这是一种从自然语言监督中学习视觉模型的新方法。

CLIP模型主要由两部分组成:Text Encoder 和 Image Encoder。这两部分可以分别理解成文本和图像的特征编码器。CLIP的预训练过程如下所示:

ba6e09f80c991baff06643a23348e9dd.png

图1 CLIP的预训练过程

给定一个Batch的N个(图片,文本)对,图片输入给Image Encoder得到表征 , , ..., ,文本输入给 Text Encoder 得到表征  , , ..., ,(, ) 属于是正样本, (, ) 属于负样本。最大化 N 个正样本的 Cosine 相似度,最小化 N2 -N 个负样本的 Cosine 相似度。

CLIP是从头训练它的 Text Encoder(GPT-2) 和 Image Encoder (ViT),同时使用线性投影 (权重为, ) 将每个编码器的表征映射到多模态的嵌入空间。

ViLT

ViLT 受到 ViT 中 patch projection 技术的启发,希望最小化每个模态的特征提取,因此使用预训练的ViT来初始化交互的 Transformer,这样直接利用交互层来处理视觉特征,无需额外新增视觉 Encoder,把主要的计算量都集中在了 Transformer 的特征融合部分。

下图是ViLT的模型架构:

814b798e2868ea174d49a85432c4a348.png

图1 ViLT模型架构

文本输入通过Word Embedding 矩阵 Embedding化,然后和 Position Embedding 相加,最后和 Modal-type Embedding Concate;

图像输入通过分块操作分成

### 多模态大模型综述与研究进展 多模态大模型是一种融合多种数据形式(如文本、图像、音频等)的大规模机器学习模型,旨在解决跨模态的任务需求。这类模型的核心在于如何有效地捕捉和表示不同模态之间的关联性[^1]。 #### 一、基本概念和技术原理 多模态大模型的基础建立在深度学习框架之上,通常采用Transformer架构作为核心组件。该类模型通过联合训练的方式处理来自多个模态的数据输入,并设计特定的交叉注意力机制来增强模态间的交互效果。具体而言,这种技术能够有效提升模型对于复杂任务的理解能力,例如图文匹配、视频描述生成以及语音翻译等。 #### 二、少样本适应方法的研究进展 针对某些细粒度领域(如医学成像和遥感),由于标注数据稀缺或分布差异较大,传统的多模态大模型表现不佳。为此,研究人员提出了几种有效的少样本适应策略: 1. **基于提示的方法**:这种方法通过对输入数据附加额外的信息(即“提示”)引导模型关注关键特征,从而提高泛化性能。 2. **基于适配器的方法**:此方案引入轻量级模块调整预训练权重以适应新任务的需求,而无需重新训练整个网络结构。 3. **基于外部知识的方法**:利用已有的大规模语料库或其他资源扩充目标域的知识储备,帮助模型更好地完成迁移学习过程[^2]。 此外,为了进一步优化上述方法的效果,还存在以下潜在改进方向: - 自适应领域泛化; - 自适应模型选择; - 自适应知识利用。 这些措施有助于缓解因环境变化带来的负面影响,促进模型更加稳健地应对未知情况。 #### 三、应用场景与发展前景 随着技术不断进步,多模态大模型已经成功应用于众多实际场景之中,包括但不限于虚拟助手对话系统、自动驾驶感知决策单元以及社交媒体内容审核工具等领域。然而,当前仍面临诸多挑战亟待克服,比如计算成本高昂、能耗过大等问题。未来工作重点或将集中于以下几个方面展开探索:降低运行开销的同时保持甚至超越现有水平的表现力;加强理论支撑以便深入理解内部工作机制;推动标准化评估体系构建用于公平比较各类算法优劣等等[^4]。 ```python # 示例代码片段展示了简单版本的多模态编码解码流程 class MultiModalModel(nn.Module): def __init__(self, text_encoder, image_encoder, decoder): super(MultiModalModel, self).__init__() self.text_encoder = text_encoder self.image_encoder = image_encoder self.decoder = decoder def forward(self, texts, images): encoded_texts = self.text_encoder(texts) encoded_images = self.image_encoder(images) combined_representation = torch.cat((encoded_texts, encoded_images), dim=1) output = self.decoder(combined_representation) return output ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Linux基金会AI&Data基金会

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值