《深入浅出多模态》中：多模态模型原理总结

最新推荐文章于 2025-12-02 17:33:41 发布

原创

最新推荐文章于 2025-12-02 17:33:41 发布 · 435 阅读

CC 4.0 BY-SA版权

文章标签：

本篇内容首先将围绕不同多模态模型的对齐方法对经典多模态模型进行对比与总结，并挑选主流的多模态模型CLIP、BLIP、BLIP2等展开详细介绍，最后引入厂内多模态框架PaddleMIX进行多任务实战，帮助大家快速了解多模态技术。

一、主流多模态模型介绍

本文首先从多模态模型的基本思想、模型结构、损失设计及训练数据集情况对经典模型进行整理，太长不看版总结如下：

论文：Learning Transferable Visual Models From Natural Language Supervision

CLIP采用双塔结构，其核心思想是通过海量的弱监督文本对，通过对比学习，将图片和文本通过各自的预训练模型获得编码向量，通过映射到统一空间计算特征相似度，通过对角线上的标签引导编码器对齐，加速模型收敛。CLIP是一种弱对齐，可应用于图文相似度计算和文本分类等任务。

1.图像编码器 ：使用的是之前文章提到的ViT网络，而且是效果比较好的ViT-L/14@336px

ViT-L中的L指代large，表示使用的Transformer的层数级别
14表示每个子图像或者patch包含14*14 个像素点
336px表示输入图像的像素是336x336
所以最终图像被切分成 (336/14)_(336/14)=576个子图，如果维度D为1024，那么一张图像就可以转化成576_1024的序列 2.文本编码器：使用类似于 GPT-2 但更小的 Transformer 模型 3.投影：为了实现图像编码器和文本编码器输出的embedding向量在同一embedding空间中的一致性，使用了两个投影矩阵。这样，无论是图像还是文本编码器产生的向量，都将被投影到具有相同维度的空间中。

在这里插入图片描述

CLIP将图像和文本先分别输入一个图像编码器image_encoder和一个文本编码器text_encoder，得到图像和文本的向量表示 I_f 和 T_f 。其中 Image Encoder是 ResNet 或 Vision Transformer，Text Encoder 为 GPT-2。
将图像和文本的向量表示映射到一个多模态空间（不同类型的数据整合到一个统一的空间），得到新的可直接进行比较的图像和文本的向量表示 I_e 和T_e 。
计算图像向量和文本向量之间的cosine相似度。上述得到n x n矩阵，对角线为正样本为 1，其他为负样本0。有了n个图像的特征和n 个文本的特征之后，计算 cosine similarity，得到的相似度用来做分类的logits。
对比学习的目标函数就是让正样本对的相似度较高，负样本对的相似度较低。logits 和 ground truth 的labels 计算交叉熵损失，loss_i,loss_t分别是 Image 和 Text 的 loss，最后求平均就得到loss。

论文地址 ：https://arxiv.org/pdf/2201.12086.pdf（统一视觉语言理解和生成的引导语言图像预训练）发表于：ICML2022
代码地址 ：https://github.com/salesforce/BLIP
动机：
从模型角度，vision-language pretraining 大多采用了encoder-base model或者 encoder-d