梯度下降不了班-优快云博客

原创【mmodel/xDiT】多模态^_^从入门到放弃的学习路径

多模态生成模型是指能够根据文本描述生成图像或视频的深度学习模型。这类模型的核心挑战在于如何将文本语义精确地转换为视觉内容。典型应用场景文生图(Text-to-Image): “一只猫在雨中行走” → 生成对应图像文生视频(Text-to-Video): “一只猫在雨中行走” → 生成对应视频图生视频(Image-to-Video): 给定首帧图像，生成后续视频帧。

2025-12-03 19:20:04 596

原创【mmodel/xDit】Cross-Attention 深度解析：文生图/文生视频的核心桥梁

本文深入解析了Cross-Attention机制在文本到图像/视频生成中的核心作用。首先指出传统条件生成方法的局限性，如简单拼接和条件嵌入无法实现细粒度语义对齐。随后详细阐述了Cross-Attention的理论基础，通过对比Self-Attention，突出其跨模态信息融合的特点。数学推导展示了从Query、Key、Value计算到注意力权重归一化的完整过程，并用图书馆检索的类比帮助理解。最后以xDiT框架为例，说明Cross-Attention在实际应用中的工作流程，包括文本编码、噪声初始化和迭代去噪阶

2025-12-02 17:58:56 640

原创【mmodel/xDit】DistVAE: VAE 并行核心技术讲解+代码逐行讲解

DistVAE是一种创新的VAE并行技术，通过空间分割和Halo交换机制实现多GPU并行化。它解决了高分辨率图像/视频生成中的内存瓶颈问题，将内存占用降至1/N（N为GPU数量）。DistVAE采用非侵入式Adapter设计，支持所有标准VAE模型，通过精确的Halo区域计算保证边界连续性，质量损失小于0.5%。该技术突破单卡内存限制，使4K视频生成成为可能，相比传统分块解码方案速度更快且无接缝伪影。

2025-12-02 11:07:02 1073

原创【mmodel/xDit】xDit中的推理加速技术之缓存机制：FBCache

FBCache（First Block Cache）是一种针对扩散模型中Transformer架构的推理加速技术。其核心思想是：在扩散模型去噪过程中，仅计算第一个Transformer Block的输出残差，通过判断与上一步残差的相似性决定是否跳过后续所有Blocks的计算。当相似时直接复用缓存结果，不相似时才完整计算所有Blocks并更新缓存。相比KV Cache和其他缓存策略，FBCache采用更激进的判断机制，在单卡推理场景可获得20-30%的加速效果，尤其适用于高分辨率图像生成等任务。其主要优势在于

2025-11-19 19:43:02 492

原创【mmodel/xDit】xDit中的推理加速技术之缓存机制：TeaCache

摘要 xDiT中的TeaCache是一种针对扩散模型Transformer架构的推理加速技术，通过缓存重复计算的Transformer Block输出来减少冗余计算。其核心思想是利用扩散模型去噪过程中相邻时间步输入的高度相似性，通过判断输入相似度决定是否复用缓存结果。与KV Cache不同，TeaCache缓存整个Transformer Block的输出残差，采用基于多项式重缩放和累积误差的保守性判断机制，在保持生成质量的同时实现15-20%的加速效果。该技术特别适合高分辨率图像生成和视频任务，但不支持分布

2025-11-19 17:20:24 594

原创【mmodel/xDit】xDit中的推理加速技术之缓存机制：EasyCache 源码逐行解读

输入x是 List支持多视频输入每个视频形状:例子:Patch Embedding 后形状变为:例子:Flatten 后序列长度:例子:Transformer 处理输入/输出形状:例子:Unpatchify 后恢复原始形状:例子:EasyCache 缓存raw_input(输入)output(输出)CACHE。

2025-11-14 14:46:54 933

原创【mmodel/xDit】xDit中的推理加速技术之缓存机制：EasyCache

EasyCache是一种针对视频生成扩散模型的智能缓存加速技术，通过分析相邻时间步输入输出的渐进变化特性，自适应判断是否复用历史计算结果。该技术采用双路径缓存机制（condition/uncondition），通过动态学习输入输出变化比例系数，仅在预测误差超过阈值时执行完整计算。特别针对CFG（Classifier-Free Guidance）场景，利用condition和uncondition路径的输入一致性，实现同步缓存决策。在实现上，支持双模型架构（high/low noise）的平滑切换，并在模型切

2025-11-14 11:11:48 697

原创【mmodel/xDit】对SageAttention的一些补充

本文提出了一种GPU上的SageAttention量化-反量化方法，旨在降低显存和通信开销。该方法采用全GPU流程：FP16张量经量化转为INT8/FP4，可选跨GPU传输后执行注意力计算（支持低比特运算或FP16恢复），最后反量化输出。量化过程通过Kernel实现block级scale计算和转换，分布式场景下可减少通信量。注意力计算阶段根据硬件支持选择低比特或FP16运算，Softmax保持FP16/BF16确保稳定性。该方法避免了CPU交互带来的延迟，在保持精度的同时显著提升了计算效率。

2025-11-07 17:04:48 213

原创【mmodel/xDit】SageAttention: 多模态大模型中的高效量化注意力机制

SageAttention是一种创新的量化注意力机制，通过矩阵级INT8/FP4量化和K矩阵平滑技术，在几乎无损精度的前提下实现2-5倍加速。其核心在于：差异化量化策略： Q矩阵直接量化 K矩阵先平滑后量化以消除异常值影响 V矩阵直接量化关键优化技术：分块量化策略(1×16)提高局部精度 K矩阵平滑降低量化误差混合精度计算流程(QK计算用INT8，Softmax用FP16) 显著优势：相比FlashAttention2速度提升2-5倍端到端精度损失<0.5% 广泛硬件兼容性该技术特别适用

2025-11-07 16:58:34 1254

原创【mmodel/xDit】DiT Block详细可视化图解

DiT Block是扩散Transformer的核心组件，本文详细图解了其标准结构和MMDiT变体结构。标准DiT Block包含自注意力分支和MLP分支，采用adaLN调制机制动态调整参数。MMDiT Block则针对多模态输入进行了优化。文章提供了完整的流程图、详细结构解析和交互式可视化，帮助读者深入理解DiT的内部工作机制。

2025-10-28 16:19:41 415

原创【CUDA】Wrap和Block的同步机制

【代码】【CUDA】Wrap和Block的同步机制。

2025-10-28 16:06:50 552 1

原创【mmodel/xDit】多模态模型核心组件详解：Backbone、Scheduler、VAE

多模态模型核心组件解析：本文详细介绍了多模态扩散模型的三大核心模块：Backbone（Transformer/UNet架构）、Scheduler（噪声调度器）和VAE（变分自编码器）。其中Backbone作为核心神经网络，负责噪声预测和特征学习，通过Cross-Attention机制实现文本与图像的交互；Scheduler控制去噪过程的时间步调度；VAE则在像素空间和潜在空间之间进行转换。文章还通过架构图和代码示例展示了DiT Transformer和UNet的具体实现，以及三者在xDiT框架中的协作机制。

2025-10-26 13:01:49 971

原创【CUDA】Block_size 和 Warp_size 的关系

最近接到一个优化CUDA kernel的项目，有些概念理解的不够深入，和大家分享一下，后续优化完会出一些kernel优化的思路

2025-07-21 17:31:25 533

原创【NCCL】alltoall全面分析

算法选择策略小规模（<32 GPU）：分阶段算法中等规模（32-128 GPU）：分层算法大规模（>128 GPU）：拓扑感知+自适应优化性能优化要点充分利用硬件层次（NVLink > PCIe > 网络）实现通信与计算重叠动态负载均衡避免热点可靠性保障多层错误检测分级恢复策略实时性能监控。

2025-07-04 16:40:46 2236

原创【性能调优】NCCL常用环境变量详解

记录一下最近调优多机通信的过程

2025-06-17 10:27:18 2208

原创【性能调优】IOMMU全面介绍

近期在调优NCCL-TEST的case，发现iommu和NUMA特性对多机通信的影响极大，很多时候都要关闭iommu，或者将iommu设置为pt模式，对此不是特别理解，所以搜集了一些资料自学一下。

2025-06-10 10:05:11 2548

原创【性能调优】NUMA全方面介绍

NUMA简介与优化策略 NUMA（非统一内存访问）是一种多处理器内存架构，通过将系统划分为多个节点（CPU+本地内存）来解决传统SMP架构的总线瓶颈问题。在NUMA系统中，CPU访问本地内存（约100ns）比远程内存（150-300ns）更快。优化策略包括：1）CPU亲和性绑定；2）内存分配策略（本地/交错/首选节点）；3）编程层面的NUMA感知设计（如numa_alloc_onnode）。常用工具包括numactl、numastat和perf等，可查看NUMA拓扑、监控性能并调优。合理配置NUMA能显著提

2025-05-27 11:01:45 1285

原创 matplot valueerror: object array method not producing an array

跑llama训练时遇到报错

2024-09-04 16:06:33 989

原创 C++推理torch模型时遇到,找不到VCRUNTIME140_1D.dll

C++推理torch模型时遇到,找不到VCRUNTIME140_1D.dll dll

2022-03-05 10:17:29 627

qq_20707221的博客