
多模态大模型从入门到实战(数据集、训练、RAG、多模态)
文章平均质量分 84
本专栏将带领大家从零开始学习,数据集处理、模型制作、训练、大模型的应用,Langchain、RAG、文生图、多模态,如果你是AI零基础,请关注本专栏,将带你一起飞。大家加油
码农三叔
学编程20年,乐于奉献,一往无前
展开
-
(9-5)MM-Vet多模态大模型评估系统:评估测试
如果你因为网络原因无法访问 GPT-4(gpt-4-0613),可以将模型输出结果(json 文件)上传到 MM-Vet v2 在线评估器Hugging Face Space以获取评分结果。得到的评估结果如图9-1所示。图9-1 部分评估结果。原创 2025-03-13 10:57:37 · 207 阅读 · 1 评论 -
(9-4-01)MM-Vet多模态大模型评估系统:多模态大模型评估
(4)函数load_metadata的主要功能是加载元数据文件(mm-vet-v2.json)和一个可选的子集文件(args.subset),解析并统计与任务能力相关的信息,包括能力类别的计数、组合及其分布。(1)下面代码的功能是实现对大模型预测结果与人工标注的正确答案之间的比较,并根据一定的规则为预测结果生成一个准确性得分(Correctness Score)。(5)函数runs()的主要功能是使用指定的 GPT 模型对 AI 模型的预测结果进行多次评估,输出评分结果并保存到文件中。原创 2025-03-12 17:03:41 · 334 阅读 · 1 评论 -
(9-3-06)MM-Vet多模态大模型评估系统:推理脚本(6)
前面介绍的“inference”目录中的各种大模型推理文件(如 claude.py、gpt4.py),用于与具体的大模型进行交互。每个文件通常封装了对应模型的 API 调用逻辑,使得系统能够生成预测结果。这些文件的主要任务是执行推理,而非评估。通过本项目可以推理常见的多模态大模型,例如GPT-4、阿里通义千问等,并将推理结果保存为 JSON格式。请看下面的命令,功能是推理GPT-4大模型,并得到推理文件gpt-4o-2024-05-13_detail-high.json。原创 2025-03-11 12:50:01 · 144 阅读 · 1 评论 -
(9-3-05)MM-Vet多模态大模型评估系统:推理脚本(5)
文件qwen.py实现了一个多模态对话系统 Qwen,能够处理图像和文本输入,并生成自然语言回复。通过集成 Dashscope API,代码将图像路径和文本查询发送给 API 进行处理,并根据返回的结果生成回答。通过集成 CLIP 视觉编码器和语言模型(例如 MPT-7B),代码能够从提供的图像和文字中提取信息,并生成上下文相关的回答。上述代码实现了阿里通义千问(Qwen)大模型的推理功能,通过与 Dashscope API 交互,处理文本和图像的多模态输入,进行推理生成响应。原创 2025-03-11 12:46:54 · 141 阅读 · 0 评论 -
(9-3-04)MM-Vet多模态大模型评估系统:推理脚本(4)
文件internvl.py实现了类InternVL,用于调用 OpenGVLab 提供的多模态模型 InternVL-Chat-V1-2。模型支持通过文本和图像结合的方式回答问题,输入内容通过 <IMG> 标签标识图片路径。文件ixc2.py实现了一个多模态对话模型 InternLM-XComposer2-VL,支持图文混合输入,能够通过图像和文本信息生成详细的回答。模型通过自动设备映射高效分配资源,支持多 GPU 部署,并实现了单图和多图的嵌入处理。原创 2025-03-10 20:59:36 · 122 阅读 · 0 评论 -
(9-3-03)MM-Vet多模态大模型评估系统:推理脚本(3)
文件gemini.py定义了类Gemini,用于调用 "gemini-1.5-pro" 模型,通过 Google 的生成 AI 服务处理用户输入的多模态数据(图像和文本)。此外,在文件gemini.py中还包括命令行解析器代码,用于设置模型名称、API 密钥和其他配置。程序通过用户提供的 OpenAI API 密钥访问 API,将用户的文本和图像输入处理为请求格式,并生成简洁的文本响应。文件emu2.py实现了一个名为 Emu2 的多模态交互模型,用于处理文本和图像结合的输入,生成自然语言响应。原创 2025-03-10 15:06:26 · 122 阅读 · 0 评论 -
(9-3-02)MM-Vet多模态大模型评估系统:推理脚本(2)
文件cogagent.py实现了类CogAgent,用于结合语言和视觉信息生成多模态推理结果。文件cogvlm.py适合需要多模态问答或生成任务的应用场景,例如图文内容的智能交互。原创 2025-03-09 19:24:40 · 148 阅读 · 1 评论 -
(9-3-01)MM-Vet多模态大模型评估系统:推理脚本(1)
文件claude.py使用 Claude 模型(如 Claude-3.5)对 MM-Vet v2 数据集中的图像和文本进行多模态推理,通过解析给定的输入问题和图像,使用模型生成响应,并将结果以 JSON 格式保存。文件utils.py包含了图像处理和模型评估的辅助功能,包括将图像拼接成网格、将图像编码为 base64 格式,并对 MM-Vet-v2 数据集上的模型进行评估,最终将推理结果保存为 JSON 文件。原创 2025-03-09 19:22:52 · 123 阅读 · 0 评论 -
(9-2)MM-Vet多模态大模型评估系统:项目架构
MM-Vet 的项目架构由多模态数据集、推理脚本和评估工具三部分构成,针对大模型的综合能力进行全面评估。项目采用模块化设计,包括数据处理、推理运行和基于大语言模型的评分分析,确保灵活性和高效性。MM-Vet 项目的架构以模块化设计为核心,聚焦于多模态大模型综合能力的系统性评估。支持主流的多模态模型推理,如 GPT-4V、Gemini、Qwen-VL 等,提供标准化的推理脚本以生成模型输出结果。使用 GPT 模型实现自动化评分与评估,验证模型在多模态任务上的综合能力。原创 2025-03-08 19:28:12 · 186 阅读 · 0 评论 -
(9-1)MM-Vet多模态大模型评估系统:项目介绍
MM-Vet 是一个多模态大模型评估系统,专注于评估视觉-语言模型的综合能力,包括识别、OCR、知识推理、语言生成、空间感知和数学等核心技能的整合表现。本系统提供了数据集、在线评估器和代码工具,用户可以方便地评估自己的模型表现并将结果上传到排行榜,同时支持 GPT-4V、Gemini 等先进模型的推理脚本。随着多模态人工智能技术的快速发展,大模型在图文理解、语言生成和复杂推理等领域表现出了强大的潜力。原创 2025-03-08 19:27:19 · 105 阅读 · 0 评论 -
(5-4)DeepSeek多模态大模型架构:JanusFlow模型
这种结合方式不仅提高了模型在多模态任务中的性能,还使得模型能够生成更高质量的图像,为多模态模型的发展提供了新的方向。具体来说,ODE可以描述图像生成过程中的连续变化,使得模型能够在较少的迭代步骤内生成更接近目标的图像。JanusFlow采用了一种高效的三阶段训练策略,旨在同时优化自回归语言建模(Autoregressive Learning)和Rectified Flow生成,这种策略结合了自回归语言模型的强大理解和生成能力,以及Rectified Flow在图像生成任务中的高效性和高质量。原创 2025-02-28 17:06:23 · 178 阅读 · 0 评论 -
(5-3)DeepSeek多模态大模型架构:Janus-Pro模型
1B 和 7B 两种版本的设计满足了不同复杂度任务的需求,而 7B 版本在嵌入维度、注意力头数量和层数上的提升,显著增强了模型在多模态理解和文本到图像生成任务中的表现。Janus-Pro 模型在架构设计上继承并优化了 Janus 的核心理念——视觉编码的解耦,这种设计通过分离多模态理解任务和视觉生成任务的视觉编码路径,进一步提升了模型在多模态任务中的表现,同时增强了其在大规模数据和复杂任务场景下的适应性。这种优化不仅解决了初始策略中的问题,还为多模态模型的训练提供了新的思路和方法。原创 2025-02-28 11:08:23 · 464 阅读 · 0 评论 -
(5-2-02)DeepSeek多模态大模型架构:Janus模型(2)
自回归Transformer是Janus多模态模型的核心组件,负责处理来自多模态理解路径和视觉生成路径的特征序列,并生成相应的输出。它将多模态数据的处理统一在一个强大的序列生成框架中,使得模型能够高效地处理复杂的多模态任务。通过上述三阶段的训练策略,Janus 模型在多模态理解和生成任务上实现了性能的逐步提升,为多模态人工智能应用提供了坚实的基础。Janus模型的推理方式和扩展性使其能够高效地处理多种多模态任务,并且能够灵活地适应新的模态和数据类型。原创 2025-02-27 11:15:58 · 134 阅读 · 2 评论 -
(5-2-01)DeepSeek多模态大模型架构:Janus模型(1)
Janus模型的整体架构基于自回归Transformer,这是一种强大的序列生成框架,广泛应用于自然语言处理和多模态任务中。自回归Transformer通过逐个生成序列中的元素(如文本中的单词或图像中的像素),能够有效地捕捉序列中的依赖关系。在Janus模型中,自回归Transformer不仅处理文本输入,还整合了来自视觉模态的特征,从而实现多模态数据的统一处理。原创 2025-02-26 19:34:48 · 249 阅读 · 0 评论 -
(5-1)DeepSeek多模态大模型架构:发展历程
DeepSeek推出的多模态技术,在解耦视觉编码、优化训练流程、数据扩展以及模型规模上实现了全方位的提升,构建了一个既能有效理解多模态输入,又能精准生成图像和文本的统一模型体系。满足了从基础研究到实际应用的多种需求。在本章的内容中,将详细讲解DeepSeek多模态大模型的架构知识。原创 2025-02-26 19:32:17 · 44 阅读 · 0 评论 -
(4-9)基于DeepSeekMoE架构的DeepSeek-V3:DeepSeek-V3 模型总结
DeepSeek-V3 是一款强大的开源语言模型,其设计和实现涵盖了多个关键方面,包括模型架构、训练、预训练、知识蒸馏和高性能推理等。下面是对DeepSeek-V3的详细总结。1. 模型架构Transformer 基础:DeepSeek-V3 基于 Transformer 架构,包含 61 层 Transformer,每层包含自注意力机制和前馈神经网络。多头注意力机制(MLA):采用多头注意力机制,通过低秩联合压缩技术减少推理中的内存占用,同时保持性能。原创 2025-02-26 11:03:07 · 167 阅读 · 0 评论 -
(4-8)基于DeepSeekMoE架构的DeepSeek-V3:测试模型
在生成文本时,用户可以输入提示文本,模型会根据这些提示生成相应的文本输出。DeepSeek-V3 模型的主要特点是它采用了混合专家模型(MoE)、多头注意力机制和量化的权重,以实现高效的大规模语言建模。此外,DeepSeek-V3 模型还通过独特的多 token 预测目标(MTP)扩展了多 token 预测的能力,显著提高了训练数据的效率。通过下面的命令启动 DeepSeek-V3 模型的批量推理模式,模型将读取指定文件中的每一行作为输入提示,生成相应的文本输出。(4)加载模型权重:加载模型的权重文件。原创 2025-02-25 17:33:13 · 249 阅读 · 0 评论 -
(4-7)基于DeepSeekMoE架构的DeepSeek-V3:权重转换
转换后的权重文件将保存到指定的目录中,供后续推理使用。具体来说,cd inference 命令将当前工作目录切换到 inference 目录, 然后执行 python fp8_cast_bf16.py 脚本, 并通过 --input-fp8-hf-path 和 --output-bf16-hf-path 参数指定输入和输出路径。DeepSeek-V3 模型的权重转换是模型部署和推理过程中的关键步骤,主要涉及将模型的权重从 FP8 格式转换为 BF16 格式,以适应不同的硬件平台和推理需求。原创 2025-02-25 11:11:39 · 211 阅读 · 0 评论 -
(4-6)基于DeepSeekMoE架构的DeepSeek-V3:量化计算
类似地,weight_dequant_kernel 函数使用提供的缩放因子对量化后的权重进行反量化,而 weight_dequant 函数提供了相应的 Python 接口。具体而言,函数act_quant_kernel()将输入张量的每个块(由 BLOCK_SIZE 指定)进行处理,计算每个块的最大绝对值并据此确定缩放因子 s,然后使用该缩放因子对块内的元素进行量化,最终将量化后的值和对应的缩放因子分别存储在输出指针 y_ptr 和 s_ptr 所指向的内存位置。原创 2025-02-24 11:19:09 · 241 阅读 · 2 评论 -
(4-5-04)基于DeepSeekMoE架构的DeepSeek-V3:模型架构(4)Transformer模型
类Transformer 是一个基于Transformer架构的模型,适用于自然语言处理中的任务。类Transformer包含嵌入层、多个Transformer层和一个输出投影层,其中嵌入层用于将输入的 token 映射到高维向量空间。最后,代码打印模型对输入 x 的输出张量的尺寸,以验证模型的输出是否符合预期。上述Transformer 模型的设计结合了并行嵌入、RMS 归一化、列并行线性层和 Dilated RoPE,能够高效地处理大规模的输入序列,并在分布式训练中实现高效的通信和计算。原创 2025-02-23 21:06:36 · 35 阅读 · 0 评论 -
(4-5-03)基于DeepSeekMoE架构的DeepSeek-V3:模型架构(3)混合专家模型(MoE)的实现
DeepSeek-V3 是一款采用混合专家(Mixture-of-Experts, MoE)架构的语言模型,总参数量达到 6710 亿(671B),但每个输入仅激活约 370 亿(37B)参数进行计算。MoE 架构的核心思想是将模型划分为多个专注于特定任务的子网络(专家),通过门控机制为每个输入选择最相关的专家,从而提高模型的效率和专业化程度。MoE (Mixture-of-Experts)是一种用于 DeepSeek-V3 模型的专家混合架构,旨在通过多个专家网络的组合来提高模型的表达能力和推理性能。原创 2025-02-23 21:04:23 · 147 阅读 · 0 评论 -
(4-5-02)基于DeepSeekMoE架构的DeepSeek-V3:模型架构(2)
MLA 层支持多种注意力头的并行计算,能够捕捉输入序列中的不同特征,并通过旋转位置嵌入(RoPE)增强模型对位置信息的感知能力。在前向传播过程中,输入首先经过 w1 线性变换,然后应用 SiLU 激活函数,并与 w3 的输出逐元素相乘,最后通过 w2 线性变换得到输出。这些值在后续的注意力机制中用于对查询和键进行旋转操作,以引入位置信息。前向传播函数中,输入 x 首先经过 w1 线性变换,然后应用 SiLU 激活函数(F.silu),并与 w3 的输出逐元素相乘,最后通过 w2 线性变换得到最终输出。原创 2025-02-23 21:00:57 · 27 阅读 · 0 评论 -
(4-5-01)基于DeepSeekMoE架构的DeepSeek-V3:模型架构(1)
DeepSeek-V3不仅整合了传统 Transformer 的核心机制,还通过 MoE 模块和定制的注意力层扩展了模型的容量和灵活性,同时支持分布式训练和低精度计算,为大规模语言模型的高效训练与推理提供了有力保障。1. 基础架构Transformer 编码器:DeepSeek-V3 采用多层 Transformer 编码器结构,每层包含自注意力机制和前馈神经网络,用于对输入序列进行深度特征提取。原创 2025-02-21 13:56:25 · 103 阅读 · 0 评论 -
(4-4)基于DeepSeekMoE架构的DeepSeek-V3:超参数配置
文件config_236B.json是 DeepSeek-V3 模型的 2366B 版本配置文件,与前面介绍的小规模版本(16B)配置文件config_16B.json相比,新增了 n_expert_groups 参数,用于定义 MoE 结构中专家的分组数量。文件config_671B.json是 DeepSeek-V3 模型的 2366B 版本配置文件,与前面介绍的中规模版本(236B)配置文件config_236B.json相比,新增了 mscale 参数,用于量化缩放因子。原创 2025-02-20 14:44:57 · 275 阅读 · 1 评论 -
(4-4)DeepSeek底层架构技术:混合专家架构技术
混合专家架构(Mixture-of-Experts,MoE)是一种用于提升模型性能和效率的架构,广泛应用于深度学习领域,尤其是在自然语言处理(NLP)和计算机视觉(CV)中。MoE的核心思想是将多个专家模型(Experts)组合在一起,通过一个门控机制(Gating Mechanism)动态地选择最适合处理当前输入的专家。1. 定义在MoE架构中,动态任务分配的职责是通过门控网络根据输入数据的特征动态地决定每个专家对当前任务的贡献权重。原创 2025-02-20 11:01:37 · 595 阅读 · 1 评论 -
(4-3)基于DeepSeekMoE架构的DeepSeek-V3:模型权重
DeepSeek-V3 的权重结构由主模型权重和 Multi-Token Prediction (MTP) 模块组成,其中主模型权重包含输入/输出嵌入层及 61 个 Transformer 隐藏层,参数总量达 671B,而 MTP 模块则附加了额外的预测层,用于提升模型的多 token 预测能力,其参数独立于主模型,以支持更高效的推理和性能优化。(4)加载权重:系统根据计算得到的层 ID,从权重文件中加载相应的 MTP 模块权重,包括额外的 Transformer 隐藏层和相关参数。原创 2025-02-18 10:10:31 · 587 阅读 · 0 评论 -
(4-1)基于DeepSeekMoE架构的DeepSeek-V3:项目介绍+开源信息介绍
DeepSeek-V3 是一个基于专家混合(Mixture-of-Experts,MoE)架构的强大语言模型,总参数量达到 6710 亿(671B),其中每个 token 激活参数为 370 亿(37B)。项目致力于实现高效推理与成本效益的训练,其核心在于采用了多头潜在注意力(Multi-head Latent Attention, MLA)以及 DeepSeekMoE 架构。原创 2025-02-17 14:42:59 · 240 阅读 · 1 评论 -
(15-4)DeepSeek混合专家模型初探:调用模型
在DeepSeek-MoE项目的开原文件中,介绍了利用 Hugging Face Transformers实现两种不同场景(文本补全和对话生成)的推理任务的实现过程。两者都使用了 Transformers 库中的 AutoTokenizer 和 AutoModelForCausalLM 类,同时加载了各自对应的生成配置(GenerationConfig)并设置了填充标记(pad_token_id)为结束标记(eos_token_id),以确保生成过程正确终止。原创 2025-02-16 14:57:13 · 91 阅读 · 0 评论 -
(15-3)DeepSeek混合专家模型初探:模型微调
其中包括可训练的模型参数列表、LoRA(低秩适应)相关设置、需要保存的模块、是否使用 LoRA、预训练模型的路径、注意力机制的实现方式,以及量化相关的配置,如是否使用双量化、量化数据类型和位数等。上述令使用 DeepSpeed 来加速和优化模型的微调过程,通过指定 DeepSpeed 配置文件(如 configs/ds_config_zero3.json),可以利用其 ZeRO 优化器阶段3(ZeRO Stage 3)来有效地管理内存和计算资源,从而支持大规模模型的训练。原创 2025-02-16 14:53:45 · 282 阅读 · 0 评论 -
(15-2)DeepSeek混合专家模型初探:ZeRO配置
ZeRO技术的实现分为如下所示的三个阶段,每个阶段在显存占用和通信开销之间找到不同的平衡。ZeRO Stage 1:仅对优化器状态进行分片存储,每个GPU保留完整的梯度和模型参数,易于实现,且通信量相对较小,适用于中等规模的模型训练,但显存节省有限。ZeRO Stage 2:在第一阶段的基础上,进一步对梯度进行分片,每个GPU只存储自己负责的部分梯度和优化器状态,而模型参数仍然完整存储在每个GPU上,较大幅度降低显存需求,同时通信开销适中,是大多数大规模模型训练的理想选择,兼顾效率和资源节省。原创 2025-02-16 14:51:08 · 63 阅读 · 0 评论 -
(15-1)DeepSeek混合专家模型初探:项目介绍+功能模块
Mixture-of-Experts (MoE) 语言模型最早见于DeepSeek开源项目DeepSeekMoE(https://github.com/deepseek-ai/DeepSeek-MoE),旨在通过专家混合技术实现高效的模型训练和推理。原创 2025-02-14 14:10:15 · 317 阅读 · 1 评论 -
(14-9)基于Latent Diffusion Transformer的文生视频系统:采样(sampling)
文件sample_t2x.py用于实现从文本到视频的生成功能,通过利用预训练的模型和调度器,将文本提示(prompt)转化为对应的视频。该代码广泛应用于文本到视频生成任务中。文件sample.py用于从预训练的 Latte 模型中采样生成视频,首先,通过命令行参数配置模型的超参数,然后加载 Latte 模型的权重并初始化模型和扩散模型。在本项目中,采样(sampling)是指从预先训练的模型中生成数据的过程。具体来说,采样是指从训练好的生成模型中生成新的视频、图像或其他数据,例如使用多模态模型生成视频。原创 2025-02-14 10:23:32 · 339 阅读 · 1 评论 -
(14-8)基于Latent Diffusion Transformer的文生视频系统:模型性能评估
在文件frechet_video_distance.py中定义了函数compute_fvd,用于计算生成视频与真实视频之间的 Frechet Video Distance (FVD),通过比较生成视频和真实视频的特征统计(均值和协方差矩阵)来衡量生成视频的质量。文件metric_utils.py提供了用于计算生成模型生成的图像或视频特征统计量的工具,包括计算特征的均值、协方差以及生成数据的其他相关特征。通过计算生成视频的类别分布与其平均类别分布之间的KL散度,并对不同的子集进行分割以计算最终的平均得分。原创 2025-02-13 14:24:50 · 153 阅读 · 0 评论 -
(15-1)DeepSeek大模型开发实践
DeepSeek是一个专注于推理能力的大语言模型,其第一代推理模型DeepSeek-R1在2025年1月发布。DeepSeek-R1系列包括两个核心版本:DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1通过模型蒸馏技术,将推理能力迁移到更小的模型中,推出了从1.5B到70B参数量的多个版本,并开放了相关权重。此外,DeepSeek-R1遵循MIT License,允许用户通过蒸馏技术训练其他模型。原创 2025-02-07 17:52:47 · 1001 阅读 · 1 评论 -
(14-7)基于Latent Diffusion Transformer的文生视频系统:训练模型
代码包括训练步骤的定义、学习率调度、模型检查点保存、日志记录等功能,同时支持分布式训练和多GPU加速。文件train_with_img.py实现了基于分布式训练框架的多模态视频生成模型的训练流程,包括分布式环境初始化、模型构建与加载、数据加载与分发、损失计算与反向传播、梯度裁剪、学习率调度、检查点保存以及日志记录等功能。代码支持从断点恢复训练、基于EMA(指数移动平均)优化模型权重,以及通过参数设置实现模型预训练权重加载、梯度检查点、高效注意力等特性,旨在有效训练生成高质量视频的深度学习模型。原创 2025-02-07 17:44:27 · 159 阅读 · 0 评论 -
(14-6-04)基于Latent Diffusion Transformer的文生视频系统:实现模型(04)二维 Transformer 模型
文件latte_t2v.py定义了一个用于处理图像类数据的二维 Transformer 模型 LatteT2V,该模型通过多头注意力机制和层次化的 Transformer 块结构,实现了对连续型和离散型输入数据的处理。此外,该模型实现了梯度检查点功能以优化内存使用,并支持特殊归一化层(如 AdaLayerNorm),从而增强模型在扩散过程中的表现能力,是一个面向图像生成与处理任务的高度可定制化的工具。其主要功能是根据给定的时间步生成一组适配的归一化参数,旨在提升神经网络的训练效果,特别是在条件生成模型中。原创 2025-02-06 13:01:30 · 44 阅读 · 1 评论 -
(14-6-03)基于Latent Diffusion Transformer的文生视频系统:实现模型(03)图像生成模型
如果需要,它还可以在编码中加入类标记(cls_token)或额外的令牌(extra_tokens),并返回一个形状为 [grid_size*grid_size, embed_dim] 或 [1+grid_size*grid_size, embed_dim] 的位置编码矩阵。它首先调用 get_1d_sincos_pos_embed_from_grid 为网格的纵向(高度)和横向(宽度)计算一维编码,然后将这两部分拼接成完整的二维位置编码。它结合了 Transformer 架构和扩散模型的优势。原创 2025-02-05 10:11:01 · 289 阅读 · 2 评论 -
(14-6-02)基于Latent Diffusion Transformer的文生视频系统:实现模型(02)实现多模态视频处理模型
接着,生成一个形状为 (3, 16, 4, 32, 32) 的随机输入张量 img,以及两个包含数字的张量 t 和 y,然后加载 Latte_XL_2 模型,并使用 thop.profile 计算模型的FLOPs和参数数量。它接受输入的特征,计算查询(Q)、键(K)和值(V),然后根据选定的计算模式执行注意力操作。(6)类Latte是一个基于 Transformer 架构的扩散模型,通过将图像数据与时间步长、类别标签以及可选的文本嵌入进行结合,实现对视频或图像的建模和生成。原创 2025-02-04 16:44:16 · 54 阅读 · 1 评论 -
(14-6)基于Latent Diffusion Transformer的文生视频系统:实现模型(1)实现文本嵌入模型
文件clip.py实现了一个用于文本嵌入的神经网络模型,利用CLIP的文本编码器对输入的文本进行处理。FrozenCLIPEmbedder类加载并冻结了CLIP模型用于文本的编码,生成文本的嵌入向量。TextEmbedder类扩展了该功能,添加了文本dropout的操作,以实现分类器自由引导(classifier-free guidance),增强生成模型的多样性。在本项目的“models”目录中,包含了实现各种机器学习模型的程序文件,这些模型可以处理多种任务,如文本、图像或多模态数据的处理。原创 2025-02-03 16:07:18 · 201 阅读 · 0 评论 -
(14-5)基于Latent Diffusion Transformer的文生视频系统:扩散模型
在生成阶段,模型从随机噪声开始,利用逆向扩散过程生成数据。目录内的组件主要包括构建扩散过程的核心逻辑、时间步的管理与采样、扩散过程中高斯噪声的生成与操作,以及调整扩散步数和参数的工具。(4)下面代码定义了一个名为_warmup_beta的函数,旨在生成一个线性变化的beta序列,用于扩散模型的训练。文件diffusion_utils.py实现了与高斯分布相关的数学操作,包括计算高斯分布之间的KL散度、高斯分布的连续和离散对数似然,以及一个快速近似的标准正态分布的累积分布函数(CDF)。原创 2025-01-19 10:29:35 · 202 阅读 · 2 评论