[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 视觉模型篇

原创

已于 2024-08-22 13:34:21 修改 · 1.6k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记 #计算机视觉 #人工智能 #自然语言处理 #神经网络 #python

于 2024-08-21 22:49:06 首次发布

[CLIP-VIT-L + Qwen] 多模态大模型学习笔记 - 5

前情提要
源码解读（visualModel类）

参考repo:WatchTower-Liu/VLM-learning; url: VLLM-BASE

前情提要

有关多模态大模型架构中的语言模型部分（MQwen.py）的代码请看（多模态大模型源码阅读 - 1、多模态大模型源码阅读 - 2，多模态大模型源码阅读 - 3，多模态大模型源码阅读 - 4）
本节中将阅读视觉模型部分，即重构后的visual-encoder的源码，位于文件夹visual下的CLIP_VIT.py文件，模型选择的是clip-vit-large-patch14。

源码解读（visualModel类）

init函数

class visualModel(CLIPModel):
    def __init__(self, config: CLIPConfig):
        super().__init__(config)

整体含义

利用传入的通用配置模型参数初始化父类。

逐行解读

class visualModel(CLIPModel):
    def __init__(self, config: CLIPConfig):
        super().__init__(config)

定义一个继承CLIPModel成员变量和成员方法的visualModel类，在python3.5之后，可以对传递参数的类型进行注解，这里的CLIPModel是一个特定的自定义参数类型，用于指定传入的config参数是CLIPConfig类型，并使用传递的一般配置参数初始化父类。

get_image_features函数（重构）

    @add_start_docstrings_to_model_forward(CLIP_VISION_INPUTS_DOCSTRING)
    def get_image_features(
        self,
        pixel_values: Optional

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

FlowerLoveJava

关注关注

26
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

CLIP-ViL：CLIP对视觉和语言任务有多大的好处？UC Berkeley&UCLA团队给出了答案！

我爱计算机视觉

11-03

1242

关注公众号，发现CV技术之美1写在前面大多数现有的视觉和语言（V&L）模型依赖预训练的视觉编码器，使用相对较小的人工标注数据集来感知视觉世界。然而，大规模的预训练通常可以产生更好的...

（pytorch进阶之路）CLIP模型实现图像多模态检索任务

qq_19841133的博客

10-21

9073

CLIP模型解决了一个多模态问题代码地址： https://github.com/yyz159756/CLIP-VIT-

参与评论您还未登录，请先登录后发表或查看评论

yolov5模型构建源码详细解读(yaml、parse_model等内容)

weixin_38252409的博客

08-15

2917

本文章记录yolov5如何通过模型文件yaml搭建模型，从解析yaml参数用途，到parse_model模型构建，最后到yolov5如何使用搭建模型实现模型训练过程。

【计算机视觉】DINOv2（视觉大模型）代码使用和测试（完整的源代码）

最新发布

2401_84204207的博客

10-11

1203

本文探讨了多模态大模型（VLM）的技术发展现状与挑战。文章首先指出当前VLM主要实现"看图说话"功能，而非图像生成，其核心架构通常由视觉编码器（如CLIP）和语言模型组成。接着分析了三种典型VLM模型（LLaVA、Qwen2.5-VL、GPT-4v）的架构差异，并详细介绍了视觉编码器CLIP和ViT的工作原理。最后指出当前VLM尚未解决图像生成与文本生成的融合问题，架构仍需创新。文末还提供了包含104G学习资源的大模型学习礼包，涵盖从入门到进阶的全套教程。

【亲测免费】 CLIP-VIT-Large-Patch14：探索视觉模型的前沿技术

gitblog_02508的博客

12-16

1368

在当今人工智能领域，视觉模型的性能和适用性成为了研究和应用的关键。CLIP-VIT-Large-Patch14，作为OpenAI开发的一款先进的视觉模型，以其独特的特性和卓越的性能在计算机视觉任务中脱颖而出。本文将对比分析CLIP-VIT-Large-Patch14与其他主流视觉模型，探讨其在性能、功能和适用场景上的优劣。 ## 对比模型简介 ### CLIP-VIT-Large-Patch1...

CLIP ViT-L/14 图像编码器技术细节：Vision Transformer实现原理

gitblog_00232的博客

08-29

526

在计算机视觉与自然语言处理的交叉领域，CLIP（Contrastive Language-Image Pre-training）模型代表了多模态学习的重大突破。其中，ViT-L/14（Vision Transformer Large with 14x14 patches）作为图像编码器的核心组件，通过Transformer架构实现了前所未有的图像理解能力。本文将深入解析CLIP ViT-L/14图...

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 模型训练篇

FlowerLoveJava的博客

08-27

852

collate_fn传入之前导入的data_collate函数，对训练数据进行统一的批处理，并利用partial函数固定tokenizer，black_token_length等参数，有关data_collate函数的细节请参考。训练参数的数据类，继承自transformers.TrainingArguments，并添加了一个新的参数feature_proj_lr，用于调整中间映射层的学习率。本节介绍的是模型训练部分。多模态模型的训练代码，将视觉模型的参数冻结，并采用LoRA对语言模型进行微调。

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - trainer篇

FlowerLoveJava的博客

08-22

1069

我们传入的model参数实际上是一个以Qwen为语言模型，SIGLIP/CLIP-VIT为视觉模型的多模态模型参数，所有这里的model.LLM大概率是语言模型，saved_params_llm获取语言模型微调后的adapter状态字典，并将其存储到输出路径下的adapter_model.bin文件中。其余的参数在后续都将应用权重衰减。如果设置了投影层的学习率，我们获取opt_model中所有名字里带有‘feature_proj’的参数，这些参数都是投影层参数，代表我们的模型是多模态模型，具有投影层。

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - DataSet篇

FlowerLoveJava的博客

08-26

1074

初始化caption_labels，开头是长度为（black_token_length + 当前字幕长度 - L - 1）的掩码，中间为字幕的倒数L个token，结尾为长度是（max_lenght - 当前字幕长度）的掩码。使用导入的创建上下文方法，传入初始化的成员变量self.tokennizer分词器，prompt，初始化历史信息为空，代表当前没有历史对话，system作为描述信息，描述了系统功能。如Multimodal[1]，其中Multimodal为类的实例对象，1为传入的index参数值。

CLIP-VIT-L + Qwen 多模态源码阅读 - 语言模型篇（3）

FlowerLoveJava的博客

08-20

1761

如果batch_size合法，我们重塑attention_mask的第一个维度为batch_size。其他情况，我们初始化一个空的ntk_alpha_list，如果存在attention_mask且kv_seq_len大于继承的成员变量self.seq_len，我们用attenrion_mask计算序列的实际长度，这里去除掉四维张量attenrion_mask的中间两个维度，计算seq_len维度中指为0的元素数量（由于之前翻转了attention_mask，所以值为0代表我们需要关注的元素）。

（2023，CLIP:ViT）跨生成模型泛化的通用假图像检测器

qq_44681809的博客

08-20

3118

当图像包含生成模型的指纹时，就会被分类为假图像。这是因为分类器很容易锁定区分真假图像的低级伪影。为解决这个问题，作者使用未经训练的特征空间来区分真假图像。当能够访问大型预训练视觉语言模型的特征空间时，最近邻分类有良好泛化能力。

ViT：2 理解CLIP

鲁班模锤

06-10

2565

语言-图像对比的预训练模型（CLIP）是由OpenAI开发的多模态学习架构。它从自然语言监督中学习视觉概念。它通过在包含图像及其相应文本描述的大规模数据集上联合训练模型来弥合文本和视觉之间的差距。

clip模型学习

weixin_41012399的博客

08-16

458

参考：https://blog.youkuaiyun.com/weixin_53280379/article/details/125585445CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里希望通过对比学习，模型能够学习到文本-图像对的匹配关系。如下图所示，CLIP包括两个模型：Text Encoder和Image Encoder，其中Text Encoder用来提取文本的特征，可以采用NLP中常用的text transformer模型；

ViT与CLIP：图像×文本 多模态读心术揭秘

酌沧

06-30

1630

讲解ViT与 CLIP的原理、差异，以及它们在多模态大模型中的应用。

【免费下载】使用CLIP-ViT-L/14提高图像分类任务的效率

gitblog_02290的博客

12-23

3633

图像分类是计算机视觉领域中的一个核心任务，广泛应用于医疗诊断、自动驾驶、安防监控等多个领域。随着数据量的增加和任务复杂度的提升，如何提高图像分类的效率成为了研究者和开发者关注的焦点。传统的图像分类方法在处理大规模数据时往往效率低下，且难以适应多样化的任务需求。因此，探索一种能够高效处理图像分类任务的模型显得尤为重要。 CLIP（Contrastive Language–Image Pretrai...

CLIP-ViL: 跨模态语言图像理解开源项目指南

gitblog_00167的博客

08-21

859

CLIP-ViL: 跨模态语言图像理解开源项目指南项目介绍 CLIP-ViL 是一个基于CLIP（Contrastive Language-Image Pre-training）的视觉语言模型，它旨在促进跨模态任务的研究，如图像描述、视觉问答等。该项目通过结合强大的语言和视觉预训练模型，实现了文本和图像之间的高效交互，从而在多种下游任务中展现出了卓越性能。CLIP-ViL利用了OpenAI的C...

clip模型

weixin_43360707的博客

09-14

1207

CLIP，它解决文字和图片之间对应的问题。我们常规训练模型后，万一要新增一个分类，这个时候只能重新训练，然后重复之前的工作。那么有没有一个办法，让我们不用重复之前的工作呢？GPT中有一个zero-shot，我们只要训练好一个大模型，然后通过一些提示，就能让它自动分类识别。

CLIP使用教程

持续关注并分享目标检测、数据生成、视频驱动、跨模态、分割、关键点等领域前沿技术

05-23

1万+

本地调用Hugging Face中CLIP API教程

Qwen-VL多模态大模型演进与关键技术解析

Qwen-VL模型作为阿里巴巴团队研发的多模态大语言模型（Multimodal Large Language Model, MLLM）代表，其演进过程体现了当前人工智能领域在视觉与语言融合理解方面的前沿探索。从Qwen-VL 1.0到2.0的迭代不仅反映了...