[CLIP-VIT-L + Qwen] 多模态大模型学习笔记 - 语言模型篇(4)
参考repo:WatchTower-Liu/VLM-learning; url: VLLM-BASE
前情提要
有关MQwenModel的代码请看(多模态大模型源码阅读 - 1、 多模态大模型源码阅读 - 2, 多模态大模型源码阅读 - 3)
本节中将接着看MQwen.py中的剩余源码,即MQwenLMHeadModel和main函数源码,MQwen.py重构了Qwen大模型中QwenModel的前向传播代码和QwenLMHeadModel的部分代码,以适配视觉编码器CLIP-VIT-L和语言模型Qwen的多模态架构,QwenModel类作为基座模型,QwenLMHeadModel 是基于 QwenModel 的一个扩展,加入了针对特定下游任务的头,在后续我们主要使用重写后的MQwenLMHeadModel作为多模态架构中的语言模型。
源码解读(MQwenLMHeadModel类)
init函数
class MQWenLMHeadModel(QWenLMHeadModel):
def __init__(self, config, otherConfig):
super().__init__(config)
self.transformer = MQWenModel(config, otherConfig)
if config.bf16:
self.transformer.bfloat16()
if config.fp16:
self.transformer.half()
总体含义
初始化一个使用MQwenModel的类的实例,以便后续使用MQwenModel进行前向传播。
逐行解读
config 和 otherconfig一个作为初始化模型的通用配置参数,一个是用户自定义的额外参数传入。
def __init__(self, config, otherConfig):
使用通用配置参数初始化父类。
super().__init__(config)
初始化基座模型MQwenModel用于前向传播,传递入通用配置参数和自定义参数,赋值给成员变量self.transformer
self.transformer = MQWenModel(config, otherConfig)
确定将模型的权重转换为bf16(brain float 16)还是单精度浮点数(float16)数据格式,bf16和双精度浮点数(float32)有相同的动态范围,但是只需要16位的存储空间,可以看做单精度浮点数(float16)的变体。这两种精度都支持自动混合精度训练,可以减少内存占用,提高性能。
if config.bf16:
self.transformer.bfloat16()
if config.fp16:
self.transformer.half()
prepare_inputs_for_generation函数
def prepare_inputs_for_generation(
self, input_ids, past_key_values=None, inputs_embeds=None, **kwargs
):
if past_key_values:
input_ids = input_ids[:, -1].unsqueeze(-1)
if input_ids.size(0) == 1:
attention_mask = None
else:
attention_mask = kwargs.get("attention_mask", None)
if inputs_embeds is not None and past_key_values is None:
model_inputs = {
"inputs_embeds": inputs_embeds}
else:
model_inputs = {
"input_ids": input_ids}
model_inputs.update(
{
"past_key_values": past_key_values,
"use_cache": kwargs.get("use_cache"),
"attention_mask": attention_mask,
"images":