[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - 语言模型篇（4）

原创

已于 2024-08-22 13:35:00 修改 · 1.3k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记 #自然语言处理 #nlp #计算机视觉 #语言模型 #神经网络

于 2024-08-21 14:57:04 首次发布

[CLIP-VIT-L + Qwen] 多模态大模型学习笔记 - 语言模型篇（4）

前情提要
源码解读（MQwenLMHeadModel类）

参考repo:WatchTower-Liu/VLM-learning; url: VLLM-BASE

前情提要

有关MQwenModel的代码请看（多模态大模型源码阅读 - 1、多模态大模型源码阅读 - 2，多模态大模型源码阅读 - 3）
本节中将接着看MQwen.py中的剩余源码，即MQwenLMHeadModel和main函数源码，MQwen.py重构了Qwen大模型中QwenModel的前向传播代码和QwenLMHeadModel的部分代码，以适配视觉编码器CLIP-VIT-L和语言模型Qwen的多模态架构，QwenModel类作为基座模型，QwenLMHeadModel 是基于 QwenModel 的一个扩展，加入了针对特定下游任务的头，在后续我们主要使用重写后的MQwenLMHeadModel作为多模态架构中的语言模型。

源码解读（MQwenLMHeadModel类）

init函数

  class MQWenLMHeadModel(QWenLMHeadModel):  
    def __init__(self, config, otherConfig):
        super().__init__(config)

        self.transformer = MQWenModel(config, otherConfig)

        if config.bf16:
            self.transformer.bfloat16()
    
        if config.fp16:
            self.transformer.half()

总体含义

初始化一个使用MQwenModel的类的实例，以便后续使用MQwenModel进行前向传播。

逐行解读

config 和 otherconfig一个作为初始化模型的通用配置参数，一个是用户自定义的额外参数传入。

    def __init__(self, config, otherConfig):

使用通用配置参数初始化父类。

 super().__init__(config)

初始化基座模型MQwenModel用于前向传播，传递入通用配置参数和自定义参数，赋值给成员变量self.transformer

self.transformer = MQWenModel(config, otherConfig)

确定将模型的权重转换为bf16（brain float 16）还是单精度浮点数（float16）数据格式，bf16和双精度浮点数（float32）有相同的动态范围，但是只需要16位的存储空间，可以看做单精度浮点数（float16）的变体。这两种精度都支持自动混合精度训练，可以减少内存占用，提高性能。

        if config.bf16:
            self.transformer.bfloat16()
    
        if config.fp16:
            self.transformer.half()

prepare_inputs_for_generation函数

    def prepare_inputs_for_generation(
        self, input_ids, past_key_values=None, inputs_embeds=None, **kwargs
    ):
        if past_key_values:
            input_ids = input_ids[:, -1].unsqueeze(-1)

        if input_ids.size(0) == 1:
            attention_mask = None
        else:
            attention_mask = kwargs.get("attention_mask", None)

        if inputs_embeds is not None and past_key_values is None:
            model_inputs = {
   
   "inputs_embeds": inputs_embeds}
        else:
            model_inputs = {
   
   "input_ids": input_ids}

        model_inputs.update(
            {
   
   
                "past_key_values": past_key_values,
                "use_cache": kwargs.get("use_cache"),
                "attention_mask": attention_mask,
                "images": kwargs