VLMs全解析：技术原理、核心模型与应用场景

最新推荐文章于 2025-07-26 23:48:07 发布

Easy数模

最新推荐文章于 2025-07-26 23:48:07 发布

阅读量858

点赞数 20

CC 4.0 BY-SA版权

分类专栏： vlm 文章标签：计算机视觉 vlm

本文链接：https://blog.youkuaiyun.com/EasyMCM/article/details/149634404

vlm 专栏收录该内容

1 篇文章

订阅专栏

在这里插入图片描述

通过本文可学习到视觉语言模型（VLMs）的定义与核心能力（跨模态融合、目标检测、图像分割、视觉问答等），了解CLIP、LLaVA、Florence等关键模型的架构与功能，熟悉VLMs按预训练、掩码、生成、对比学习的家族分类及技术特点，掌握VLMs的训练流程（数据收集、预训练、微调等）及对比学习等关键技术。

导语

想象一下，你漫步在艺术画廊中，周围环绕着生动的绘画和雕塑。现在，如果你能向每一件作品提问并得到有意义的答案，会怎样？你可能会问：“你在讲述什么故事？”或者“艺术家为什么选择这种颜色？”这正是视觉语言模型（VLMs）发挥作用的场景。这些模型如同博物馆中的专业导览员，能够解读图像、理解上下文，并通过人类语言传递这些信息。无论是识别照片中的物体、回答关于视觉内容的问题，甚至根据描述生成新图像，VLMs都以曾经难以想象的方式融合了视觉与语言的力量。

在本指南中，我们将探索VLMs的迷人世界，包括它们的工作原理、能力，以及像CLIP、PaLaMa和Florence等突破性模型——这些模型正在改变机器理解和与周围世界交互的方式。

学习目标

理解视觉语言模型（VLMs）的核心概念与能力。
探索VLMs如何融合视觉与语言数据以完成目标检测、图像分割等任务。
学习CLIP、PaLaMa和Florence等关键VLM架构及其应用。
深入了解VLM的不同家族，包括预训练模型、掩码模型和生成模型。
掌握对比学习如何提升VLM性能，以及微调如何提高模型精度。

什么是视觉语言模型？

视觉语言模型（VLMs）是一类人工智能系统，旨在处理视频（或图像）与文本的多模态输入。通过融合这两种模态，VLMs能够完成需要在图像与文本间建立语义映射的任务，例如生成图像描述、基于图像回答问题（或反之）。

VLMs的核心优势在于其能够弥合计算机视觉与自然语言处理（NLP）之间的鸿沟。传统模型通常仅擅长其中一个领域——要么识别图像中的物体，要么理解人类语言。而VLMs专门设计为融合两种模态，通过学习从语言视角解读图像（反之亦然），提供对数据更全面的理解。

什么是视觉语言模型？

VLMs的架构通常涉及学习视觉与文本数据的联合表示，使模型能够执行跨模态任务。这些模型在包含图像与对应文本描述的大规模数据集上进行预训练。训练过程中，VLMs学习图像中物体与描述它们的词语之间的关系，从而支持从图像生成文本或在视觉数据上下文中理解文本提示。

VLMs能处理的关键任务示例包括：

视觉问答（VQA）：回答关于图像内容的问题。
图像描述生成：生成描述图像内容的文本。
目标检测与分割：识别并标注图像中的不同物体或区域（通常结合文本上下文）。

视觉语言模型任务

视觉语言模型的能力

视觉语言模型（VLMs）通过融合视觉与文本信息，已发展出处理各类复杂任务的能力。它们利用图像与语言之间的内在关联，在多个领域实现了突破性功能。

视觉+语言融合

VLMs的核心是理解并同时处理视觉与文本数据的能力。通过同步处理这两种数据流，VLMs能够完成图像描述生成、带描述的目标识别，或为视觉信息关联文本上下文等任务。这种跨模态理解使输出更丰富、更连贯，使其在实际应用中具备高度通用性。

目标检测

目标检测是VLMs的一项关键能力。它使模型能够识别并分类图像中的物体，将视觉理解与语言标签关联。通过结合语言理解，VLMs不仅能检测物体，还能理解并描述其上下文。例如，它不仅能识别图像中的“狗”，还能将其与场景中的其他元素关联，使目标检测更动态、更具信息性。

目标检测

图像分割

VLMs通过图像分割增强了传统视觉模型的能力——图像分割基于内容将图像划分为有意义的片段或区域。在VLMs中，这一任务通过文本理解得到增强，即模型能分割特定物体并为每个区域提供上下文描述。这超越了单纯的目标识别，因为模型可以分解并描述图像的细粒度结构。

嵌入表示

VLMs的另一重要机制是嵌入表示，它为视觉与文本数据的交互提供了共享空间。通过关联图像与词语，模型能够执行如“给定文本查询图像”或“给定图像查询文本”的操作。这是因为VLMs能生成高效的图像表示，从而帮助弥合跨模态过程中视觉与语言的鸿沟。

视觉问答（VQA）

在VLMs的各类应用中，视觉问答（VQA）是较复杂的形式之一。其过程为：向VLM提供一张图像及与该图像相关的问题，VLM利用习得的图像解读能力和自然语言处理能力，适当地回答问题。例如，给定一张公园的图像并提问“图片中能看到多少张长椅？”，模型能够解决计数问题并给出答案，这不仅展示了视觉能力，还体现了模型的推理能力。

视觉问答（VQA）

知名VLM模型

多种视觉语言模型（VLMs）已涌现，推动了跨模态学习的边界。每个模型都提供了独特的能力，为更广泛的视觉-语言研究领域做出贡献。以下是一些最具代表性的VLMs：

CLIP（对比语言-图像预训练）

CLIP是VLM领域的先驱模型之一。它利用对比学习方法，通过学习匹配图像与其对应描述，连接视觉与文本数据。模型处理由图像-文本对组成的大规模数据集，并通过优化图像与其文本对应项的相似度（同时区分不匹配的对）进行学习。这种对比方法使CLIP能够处理广泛的任务，包括零样本分类、图像描述生成，甚至无需显式任务特定训练的视觉问答。

CLIP（对比语言-图像预训练）

参考文献：https://arxiv.org/abs/2303.07240

LLaVA（大型语言与视觉助手）

LLaVA是为复杂多模态任务对齐视觉与语言数据而设计的复杂模型。它采用了一种独特的方法，将图像处理与大型语言模型融合，以增强其解读图像相关查询并作出响应的能力。通过利用文本与视觉表示，LLaVA在视觉问答、交互式图像生成及涉及图像的对话任务中表现出色。其与强大语言模型的集成使其能够生成详细描述，并支持实时视觉-语言交互。

LLaVA（大型语言与视觉助手）

参考文献：https://llava-vl.github.io/

LaMDA（对话应用语言模型）

尽管LaMDA主要以语言模型被讨论，它也可用于视觉-语言任务。LaMDA对对话系统非常友好，当与视觉模型结合时，它能够执行视觉问答、图像控制的对话及其他多模态任务。LaMDA的改进之处在于其倾向于提供类人且上下文相关的回答，这将有益于任何需要讨论视觉数据的应用，例如自动图像或视频分析的虚拟助手。

LaMDA（对话应用语言模型）

参考文献：https://arxiv.org/abs/2201.08239

Florence

Florence是另一款强大的VLM，它融合视觉与语言数据以执行广泛的跨模态任务。其特别以处理大规模数据集时的效率与可扩展性著称。模型设计针对快速训练与部署进行了优化，使其在图像识别、目标检测和多模态理解中表现优异。Florence能够整合海量视觉与文本数据，这使其在图像检索、描述生成和基于图像的问答等任务中具备通用性。

Florence

参考文献：http://arxiv.org/abs/2111.11432

视觉语言模型的家族分类

视觉语言模型（VLMs）根据处理多模态数据的方式被分为多个家族，包括预训练模型、掩码模型、生成模型和对比学习模型。每个家族采用不同技术对齐视觉与语言模态，适用于不同任务。

视觉语言模型的家族分类

预训练模型家族

预训练模型基于大规模图像-语言对数据集构建。这些模型在通用任务上训练，允许在无需每次使用大规模数据集的情况下针对特定应用进行微调。

预训练模型家族

工作原理

预训练模型家族使用包含图像与文本的大规模数据集。模型训练目标是识别图像并将其与文本标签或描述匹配。经过广泛的预训练后，模型可针对图像描述生成或视觉问答等特定任务进行微调。预训练模型的有效性源于其初始在丰富数据上的训练，随后在较小的特定领域数据上的微调。这种方法已在各类任务中显著提升了性能。

掩码模型家族

掩码模型使用掩码技术训练VLMs。这些模型随机掩盖输入图像或文本的部分内容，并要求模型预测被掩盖的内容，从而迫使模型学习更深的上下文关系。

掩码模型家族

工作原理（图像掩码）

掩码图像模型通过掩盖输入图像的随机区域进行操作。模型随后被要求预测缺失的像素。这种方法迫使VLM关注周围视觉上下文以重建图像，从而使模型对局部与全局视觉特征有更强的理解。图像掩码帮助模型建立对图像中空间关系的鲁棒理解，这种改进的理解提升了目标检测与分割等任务的性能。

工作原理（文本掩码）

在掩码语言建模中，输入文本的部分内容被隐藏。模型被要求预测缺失的标记，这促使VLM理解复杂的语言结构与关系。掩码文本模型对掌握细微的语言特征至关重要，它们提升了图像描述生成与视觉问答等任务的性能——这些任务需要同时理解视觉与文本数据。

生成模型家族

生成模型处理新数据的生成，包括从图像生成文本或从文本生成图像。这些模型特别应用于文本到图像和图像到文本的生成任务，涉及从输入模态合成新输出。

生成模型家族

文本到图像生成

在文本到图像生成中，模型的输入是文本，输出是生成的图像。这一任务高度依赖对词语的语义编码与图像特征的理解。模型分析文本的语义含义，生成与输入描述对应的高保真图像。

图像到文本生成

在图像到文本生成中，模型以图像为输入，生成文本输出（如描述）。首先，模型分析图像的视觉内容；其次，识别物体、场景与动作；最后，将这些元素转化为文本。这些生成模型可用于自动描述生成、场景描述和从视频场景创建故事。

对比学习

对比模型（包括CLIP）通过训练匹配与不匹配的图像-文本对来识别自身。这迫使模型将图像映射到其描述，同时排除错误映射，从而实现视觉与语言的良好对应。

对比学习

工作原理？

对比学习将图像及其正确描述映射到同一视觉-语言语义空间中，同时增大视觉-语言语义不匹配样本之间的差异。这一过程帮助模型理解图像及其关联文本，适用于图像检索、零样本分类和视觉问答等跨模态任务。

CLIP（对比语言-图像预训练）

CLIP（Contrastive Language-Image Pretraining，对比语言-图像预训练）是OpenAI开发的模型，是视觉语言模型（VLM）领域的领先模型之一。CLIP处理图像与文本作为输入，在图像-文本数据集上训练，利用对比学习匹配图像与其文本描述，同时区分不相关的图像-文本对。

CLIP的工作原理

CLIP采用双编码器架构：一个用于图像，另一个用于文本。核心思想是将图像及其对应文本描述嵌入到同一高维向量空间中，使模型能够比较和区分不同的图像-文本对。

CLIP：视觉语言模型

CLIP运行的关键步骤

图像编码：与CLIP模型类似，该模型使用名为ViT的视觉变换器对图像进行编码。
文本编码：同时，模型通过基于变换器的文本编码器对对应文本进行编码。
对比学习：随后比较编码后的图像与文本的相似度以输出结果。对于属于同一类别的图像-描述对，最大化其相似度；对于非同一类别的对，最小化其相似度。
跨模态对齐：这种权衡产生了在视觉-语言匹配任务（如零样本学习、图像检索甚至逆图像合成）中表现卓越的模型。

CLIP的应用

图像检索：给定描述，CLIP可找到匹配的图像。
零样本分类：CLIP无需特定类别的额外训练数据即可对图像分类。
视觉问答：CLIP能理解关于视觉内容的问题并提供答案。

代码示例：使用CLIP的图像到文本任务

以下是使用CLIP执行图像到文本任务的代码片段示例。该示例展示了CLIP如何编码图像与一组文本描述，并计算每个文本与图像匹配的概率。

import torch
import clip
from PIL import Image

# 检查是否有GPU可用，否则使用CPU
device = "cuda" if torch.cuda.is_available() else "cpu"

# 加载预训练的CLIP模型和预处理函数
model, preprocess = clip.load("ViT-B/32", device=device)

# 加载并预处理图像
image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(device)

# 定义要与图像比较的文本描述集合
text = clip.tokenize(["a diagram", "a dog", "a cat"]).to(device)

# 执行推理以编码图像和文本
with torch.no_grad():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)

    # 计算图像与文本特征的相似度
    logits_per_image, logits_per_text = model(image, text)

    # 应用softmax获取每个标签与图像匹配的概率
    probs = logits_per_image.softmax(dim=-1).cpu().numpy()

# 输出概率
print("Label probabilities:", probs)

SigLip（暹罗广义语言-图像预训练）

SigLip（Siamese Generalized Language Image Pretraining，暹罗广义语言-图像预训练）是谷歌开发的先进模型，基于CLIP等模型的能力构建。SigLip通过改进的架构与预训练技术，利用对比学习的优势增强图像分类任务，旨在提升零样本图像分类的效率与准确性。

SigLip的工作原理

SigLip采用暹罗网络架构，包含两个共享权重的并行网络，用于区分相似与不相似的图像-文本对。这种架构使SigLip能够高效学习图像与文本的高质量表示。模型在多样化的图像-文本描述数据集上预训练，使其能够很好地泛化到各种未见过的任务。

SigLip（暹罗广义语言-图像预训练）

SigLip运行的关键步骤

暹罗网络：模型使用两个相同的神经网络分别处理图像与文本输入，但共享参数。这种设置允许对图像与文本表示进行有效比较与对齐。
对比学习：与CLIP类似，SigLip使用对比学习最大化匹配图像-文本对的相似度，并最小化不匹配对的相似度。
多样化数据预训练：SigLip在大规模多样化数据集上预训练，增强其在零样本场景（即无需额外微调即可测试任务）中的表现。

SigLip的应用

零样本图像分类：SigLip通过广泛的预训练，擅长将图像分类到其未显式训练过的类别中。
视觉搜索与检索：可用于基于文本查询检索图像，或基于描述性文本对图像分类。
基于内容的图像标签：SigLip可自动为图像生成描述性标签，适用于内容管理与组织。

代码示例：使用SigLip的零样本图像分类

以下是演示如何使用SigLip进行零样本图像分类的代码片段示例。该示例展示了如何使用transformers库将图像分类到候选标签中。

from transformers import pipeline
from PIL import Image
import requests

# 加载预训练的SigLip模型
image_classifier = pipeline(task="zero-shot-image-classification", model="google/siglip-base-patch16-224")

# 从URL加载图像
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

# 定义用于分类的候选标签
candidate_labels = ["2 cats", "a plane", "a remote"]

# 执行零样本图像分类
outputs = image_classifier(image, candidate_labels=candidate_labels)

# 格式化并打印结果
formatted_outputs = [{"score": round(output["score"], 4), "label": output["label"]} for output in outputs]
print(formatted_outputs)

参考文献：https://arxiv.org/abs/2303.15343

训练视觉语言模型（VLMs）

训练视觉语言模型（VLMs）涉及以下几个关键阶段：

训练视觉语言模型（VLMs）

数据收集：收集大规模图像-文本对数据集，确保多样性与质量，以有效训练模型。
预训练：使用变换器架构，VLMs在海量图像-文本数据上进行预训练。模型通过自监督学习任务（如预测图像或文本的掩码部分）学习编码视觉与文本信息。
微调：预训练模型在较小的任务特定数据集上进行微调，帮助模型适应图像分类或文本生成等特定应用。
生成训练：对于生成式VLMs，训练涉及学习生成新样本（如从图像生成文本或从文本生成图像），基于习得的表示。
对比学习：该技术通过最大化正样本对的相似度、最小化负样本对的相似度，提升模型区分相似与不相似数据的能力。

理解PaLiGemma

PaLiGemma是一款视觉语言模型（VLM），旨在通过结构化的多阶段训练方法增强图像与文本理解能力。它集成了SigLIP与Gemma的组件，以实现先进的多模态能力。以下是基于演讲记录与提供数据的详细概述：

工作原理

输入：模型接受文本与图像输入。文本输入通过线性投影与标记拼接处理，而图像由模型的视觉组件编码。
SigLIP：该组件使用视觉变换器（ViT-SQ400m）架构处理图像，将视觉数据映射到与文本数据共享的特征空间。
Gemma解码器：Gemma解码器融合文本与图像特征以生成输出，对多模态数据集成与生成有意义结果至关重要。

PaLiGemma：工作原理

PaLiGemma的训练阶段

以下是PaLiGemma的训练阶段：

PaLiGemma的训练阶段

单模态训练：
- SigLIP（ViT-SQ400m）：仅在图像上训练，构建强大的视觉表示。
- Gemma-2B：仅在文本上训练，专注于生成鲁棒的文本嵌入。
多模态训练：
- 224px，IB示例：此阶段模型学习处理224px分辨率的图像-文本对，使用输入示例（IB）细化多模态理解。
分辨率提升：
- 4480x与896px：增加图像与文本数据的分辨率，提升模型处理高细节与更复杂多模态任务的能力。
迁移：
- 分辨率、轮次、学习率：调整分辨率、训练轮次与学习率等关键参数，优化性能并将习得特征迁移到新任务。