自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(414)
  • 资源 (1)
  • 收藏
  • 关注

原创 Linux下的ELF文件、链接、加载与库(含大量图文解析及例程)

Linux下的ELF文件、链接、加载与库链接是将将各种代码和数据片段收集并组合为一个单一文件的过程,这个文件可以被加载到内存并执行。链接可以执行与编译时,也就是在源代码被翻译成机器代码时;也可以执行于加载时,也就是被加载器加载到内存执行时;甚至执行于运行时,也就是由应用程序来执行。​ — CSAPP本文主要参考[原创] Linux环境下:程序的链接, 装载和库,[完结] 2020 南京大学

2021-10-06 23:14:49 11783 4

原创 Vision Transformer(ViT)PyTorch代码全解析(附图解)

Vision Transformer(ViT)代码全解析最近CV领域的Vision Transformer将在NLP领域的Transormer结果借鉴过来,屠杀了各大CV榜单。本文将根据最原始的Vision Transformer论文,及其PyTorch实现,将整个ViT的代码做一个全面的解析。对原Transformer还不熟悉的读者可以看一下Attention is All You Need原文,中文讲解推荐李宏毅老师的视频,个人觉得讲的很明白。话不多说,直接开始。下图是ViT的整体框架图,我们在

2021-07-14 17:56:46 67939 88

原创 PyTorch中的torch.nn.Parameter() 详解

PyTorch中的torch.nn.Parameter() 详解今天来聊一下PyTorch中的torch.nn.Parameter()这个函数,笔者第一次见的时候也是大概能理解函数的用途,但是具体实现原理细节也是云里雾里,在参考了几篇博文,做过几个实验之后算是清晰了,本文在记录的同时希望给后来人一个参考,欢迎留言讨论。分析先看其名,parameter,中文意为参数。我们知道,使用PyTorch训练神经网络时,本质上就是训练一个函数,这个函数输入一个数据(如CV中输入一张图像),输出一个预测(如输出这张

2021-07-14 16:21:09 84270 34

原创 强化学习策略梯度

本文将首先推导强化学习策略梯度最简单的形式,然后对这个最简形式进行一些改造优化,最终得到我们实际中使用的标准策略梯度实现。我们这里考虑一个随机的、参数化的策略 πθ\pi_\thetaπθ​,我们的目标是最大化期望回报 J(πθ)=Eτ∼πθ[R(τ)]J(\pi_\theta)=\mathbb{E}_{\tau\sim\pi_\theta}[R(\tau)]J(πθ​)=Eτ∼πθ​​[R(τ)]。期望回报 J(πθ)J(\pi_\theta)J(πθ​) 是指按照特定的策略 πθ\pi_\thetaπθ

2025-04-03 00:12:40 615

原创 DPO 推导及其问题讨论

DPO 通过巧妙的推导,整合了 RLHF 的两阶段(RM + PPO)训练流程,直接根据偏好数据进行优化,大大简化了训练流程。但也由于缺少在线采样和打分的过程,探索能力有限,性能稍逊于 PPO/GRPO 等 RL 算法,对偏好数据集的质量要求更高。

2025-03-25 17:06:01 824

原创 Qwen2.5 VL 通读

Qwen 系列比较稳健,一直是每次都有一定创新,且一直保持开源。现在应该是全球范围内(最)领先的开源多模态模型了,最近几个 VLM R1 相关的项目基本全都是用 Qwen 2/2.5 VL 作为基座,都取得了不错的结果。

2025-03-24 18:04:04 932

原创 NaViT:训练任意分辨率和长宽比的 ViT

仅从结构上来说,ViT 要支持任意分辨率、任意长宽比输入图像,只要位置编码是可外推的绝对位置编码就行了,现在来看比较常用的是苏神的 2D RoPE,Qwen 2/2.5 VL 中就采用了这种方式。NaViT 主要是将 NLP 训练中的 sequence packing 引入了过来,将多个长度不一的 token 序列放到一个 sequence 里,并对 self attention 进行 masking 避免不同图片之间的干扰。(不过我看大部分训练库都没实现这个?不知道哪里能找到参考实现。

2025-03-14 17:12:44 816

原创 Flash Attention 算法简介

Flash Attention,是近几年 MLSys 领域最重要的工作之一。它考虑到 self attention 在 GPU 上计算时的 I/O 特性,通过 tiling 的思想对 self attention 过程中的矩阵乘法、softmax 等操作进行分块处理,使得每个块的计算都能在 GPU SRAM 内部完成,减少对 GPU HBM 的访存开销,大大提升了 self attention 的计算速度,并且能保证最终结果与标准 self-attention 一致。同时,采用 recompute 的方法,

2025-03-12 20:51:41 1018

原创 Rectified Flow 原理简介与示例代码解读

Rectified Flow 直接在两分布间插值构建了一种新的扩散模型形式,在简化形式的同时期望实现 “走直线” 的采样轨迹,从而减少采样步数,加快生图速度,这种形式已经在 SD3、Flux 等最新的图像生成中得到了验证和应用。本文还进一步提出了 Reflow 方法,通过训练好的模型的预测结果来为新模型的训练构造样本配对,从而能够进一步拉直采样轨迹,提高低步数下的采样质量。并为理解扩散模型蒸馏提供了一种新的角度。

2024-12-28 00:02:59 1535 2

原创 Flux Tools 结构简析

在基础模型结构切换到 (MM-)DiT 之后,Flux 官方选择通过拼接条件 token 来实现条件控制,这似乎与 MM-DiT 直接将文本作为输入来实现条件控制的设计思路一脉相承。在 Flux Tools 发布之前,第三方的 ControlNet、IP Adapter 却还是沿用之前 UNet 时代的外挂 Adapter 的方案。在 DiT 架构上,这两种条件控制方式相比有何优劣?实测条件控制效果与出图质量如何,兼容性、可插拔性方面是否会受到影响?在实际应用或训练时应该如何选择?都是仍待探究的问题。

2024-12-18 22:43:56 1052

原创 扩散模型设计选项的全面拆解与分析:EDM

以上我们已经将整个扩散模型的设计空间(包括训练过程、采样过程)的所有规格可选项全部梳理出来了。采样sts(t)st:缩放因子σt\sigma(t)σt:噪声的标准差ti\{t_i\}ti​:离散化的步长ODE Solver:所选用的 ODE 求解器训练cskipσcskip​σ:用于调制跳跃连接;coutσcout​σ:输出缩放因子;cinσcin​σ:输入缩放因子;cnoiseσcnoise​σ:噪声条件化λ。

2024-12-13 00:53:25 1469

原创 Diffusion Transformer模型结构解析(DiT、SD3、Flux)

从 UNet 迁移到 DiT,可以利用 Transformer 模型的 scaling 能力,通过增大参数量来提升出图的质量。在这个迁移过程中,我们需要考虑 Transformer 应用于扩散模型时的 patchify、positional encoding、conditioning 等几个重要环节。DiT 首先提出,确立了 patchify 的方法,并实验得到 adaLN 是比较适合 Diffusion Transformer 的 conditioning 方式;

2024-11-14 15:23:15 2696 1

原创 扩散模型对抗蒸馏:ADD 和 Latent-ADD

ADD 和 LADD 是 SD 系列同步推出的模型加速方法,结合对抗训练和蒸馏训练,提高模型的生图速度的同时兼顾生成质量,分别训练出了 SDXL-Turbo、SD3-Turbo 等模型,在开源加速模型中有比较大的影响力。

2024-10-21 17:44:06 1306

原创 CFG 蒸馏:On Distillation of Guided Diffusion Models

CFG 能够很好地在生图质量和多样性之间进行权衡,但是两次模型推理的开销确实太大,将这个调节参数蒸馏到模型内部是一个很好的想法,能够有效提高条件图的速度。最近的 Flux dev 也是对 Flux pro 进行了 CFG 蒸馏,不知是不是就是使用的本文方法。

2024-10-15 17:12:51 1434

原创 CTM:从任意时刻到任意时刻的扩散模型蒸馏方法

CTM 也是扩散模型蒸馏的一篇经典工作,训练任意时刻到任意时刻的跳步能力,从而改善了 CM 中多步生成的累积误差问题,实现了生成速度和多步采样的质量之间更好地权衡。

2024-10-13 11:44:47 1319

原创 渐进蒸馏和v-prediction

早期提出的渐进蒸馏是一种比较直觉的扩散模型步数蒸馏方法,其提出的 v-prediction 在后来也有广泛的应用。

2024-10-10 20:30:47 1628

原创 基于Diffusion的图像修复方法

整体来说,基于 Diffusion 的 inpating 方法可以分为无需训练和需要训练两个大类。其中无需训练的方法主要是根据 mask 来调整采样策略,将掩码区域的去噪生成结果与掩码外区域的加噪结果进行混合(blend)。而需要训练的方法又可分为微调模型本身和添加额外的网路分支两类。核心就是更精细的像素级控制。PowerPaint 则通过设置可学习的 prompt,进一步实现了多功能的 inpainting 模型。无需训练调整采样策略Repaint需要训练微调。

2024-09-26 20:33:58 2142

原创 Honeybee Locality-enhanced Projector for Multimodal LLM

HoneyBee 提出了两种新颖的 MLLM Adapter:C-Abstractor 和 D-Abstractor,同时满足压缩 token 个数和保持空间信息两点要求,并且性能也更进一步。但个人感觉好像还是 Adaptive AvgPool 在发挥作用?感觉可以再对比一下 Linear + Adaptive AvgPool 的性能和推理时间。

2024-08-13 11:11:15 1036 1

原创 利用扩散模型的反馈优化图片理解模型

将判别模型的输出作为文生图模型的条件输入,利用文生图模型的梯度反馈来更新判别模型,从而改善判别模型的表征质量。有点 GAN 反着用的感觉。GAN 是判别模型倒逼生成模型生成更加真实的样本,而 DIffTTA 是生成模型倒逼判别模型生成质量更高的表征。但是文生图模型的语义理解能力也是来自 CLIP 的呀,为什么反过来还能提升 CLIP 的表征质量呢?感觉 DIVA 还是靠密集条件的策略?不知道哪里有更多理论分析。

2024-08-01 19:58:16 1418

原创 Weights2wights Interpreting the Weight Space of Customized Diffusion Models

本文提出的 Weights2weights 方法是基于三个紧密相关的基础方法:LDM、DreamBooth、LoRA。我们首先简要介绍这三个基础方法。LDMLDM(Latent Diffusion Model)通过引入 VAE 将扩散模型做在了隐空间,从而降低训练和推理成本。并通过交叉注意力将文本 prompt 条件注入到去噪扩散模型中。

2024-07-30 21:09:02 578

原创 CLIP微调方式

本文介绍了 Prompt Engineering 和 Adapter 两类 CLIP 微调方法。CLIP 可以说是多模态领域奠基之作,其借助文本塔构建的图文多模态联合语义空间赋予了图片理解更多的灵活性和想象空间,使得视觉领域的 zeroshot 分类成为了可能。并且,这种自然语言带来的灵活性在微调时也提供了更多的可能,尤其是 Prompt Engineering 这一类方法。

2024-07-29 19:31:53 2166

原创 Latent Consistency Models Synthesizing High-Resolution Images with Few-Step Inference

LCM 将 CM 拓展到了隐层文生图模型,实现了对 SD 的加速采样,LCM LoRA 更是火爆社区,成为最常用的 SD 加速采样模块之一。

2024-07-23 23:42:08 772

原创 Consistency Models

给定一个 PF ODE 的解轨迹xtt∈ϵTxt​t∈ϵT​,我们定义一个一致性函数fxtt→xϵfxt​t→xϵ​。一致性函数有一个重要的性质:自一致性,即对于同一个 PF ODE 解轨迹中的任意的输入参数对xttxt​t,其输出是一致的。自一致性可表示为:对于所有的tt′∈ϵTtt′∈ϵT,都有fxttfxt′t′fxt​tfxt′​t′。

2024-07-19 23:35:21 803

原创 Score-based Generative Modeling through Stochastic Differenctial Equations

Score-based Generative Modeling through Stochastic Differenctial Equations本文是扩散模型/基于分数的生成模型领域最重要的研究工作之一,提出了连续 SDE 形式的生成模型,将之前的都是以噪声扰动为核心思想的 SMLD 和 DDPM 都统一在 SDE 形式下。并指出了与 SDE 对应的 ODE 形式,以及其在精确似然计算、图像编辑、加速采样等方面的优良性质。极大地启发了后来的工作。背景本节首先回顾之前的两个生成模型:SMLD 和 D

2024-07-16 10:12:31 718

原创 DreamSim Learning New Dimensions of Human Visual Similarity using Synthetic Data

图像相似度是在业务应用上是很常见的。CLIP 监督粒度太粗,只关注高层语义,不太适合人眼感知相似度的计算。本文利用 SD 机造数据,并人工标注,是目前比较高效的图像相似度数据集构建方式。这也再次体现出有了足够强的条件生图模型之后,机造图像数据在监督粒度把控上的优势。通过控制生图提示词等条件,(有时需配合人工标注)我们可以灵活地构造出各种监督粒度的数据。

2024-07-15 22:41:12 784

原创 Kolors Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis

Kolors 可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到 Kling 视频生成的强大表现,不得不让人赞叹快手的技术实力。

2024-07-12 00:48:52 1307

原创 InstructPix2Pix Learning to Follow Image Editing Instructions

InstructPix2Pix 是扩散模型指令编辑方向比较经典的工作。核心还是在监督数据的构建,灵活地运用了大语言模型强大的泛化能力和 Prompt2Prompt 保持两次生图布局构图一直的能力。

2024-07-10 14:39:32 903

原创 SDEdit GUIDED IMAGE SYNTHESIS AND EDITING WITH STOCHASTIC DIFFERENTIAL EQUATIONS

比较经典的 Img2Img 做法,关键是通过选择t0t_0t0​,来实现忠实性和真实性的权衡。

2024-07-09 18:21:24 1224

原创 Eyes Wide Shut Exploring the Visual Shortcomings of Multimodal LLMs

CLIP 使用自然语言作为图像预训练的监督信号,使用对比学习和大量图文对训练出了图文联合特征空间,无疑是一个里程碑式的工作。然而,CLIP 的训练信号来自于自然语言,是语义级别的监督,再加上网络图文对数据的文本描述不够详尽精确,导致 CLIP 对于细节视觉信息的把握比较差。更遗憾的是,这种源自于训练目标的固有的缺陷,是无法通过 scaling 模型和数据来解决的。本文通过找出 CLIP-blind pairs,探究了 CLIP 模型的缺陷,分析了现有主流 MLLM 将 CLIP 作为图像编码器带来的影响。

2024-07-08 17:12:00 1001

原创 Generative Modeling by Estimating Gradients of the Data Distribution

这篇 NCSN 的方法提出在 DDPM 之前,并且对 DDPM 的设计也有启发。更重要的是,笔者认为,基于得分的生成模型似乎更加直觉,更具有可解释性。从理解的角度来说,NSCN 更加顺畅。但是 DDPM 的效果似乎更好?因此一般认为 DDPM 是真正将 Diffusion 这一类方法做 work 的工作。宋飏博士在之后的 score based SDE 中也已经将 NCSN 和 DDPM 统一到了 SDE 的框架下。

2024-07-05 02:03:59 911

原创 Flow Matching For Generative Modeling

Flow Matching For Generative Modeling一、基于流的(Flow based)生成模型生成模型我们先回顾一下所谓的生成任务,究竟是想要做什么事情。我们认为,世界上所有的图片,是符合某种分布 pdata(x)p_{data}(x)pdata​(x) 的。当然,这个分布肯定是个极其复杂的分布。而我们有一堆图片 x1,x2,…,xm{x_1,x_2,\dots,x_m}x1​,x2​,…,xm​ ,则可以认为是从这个分布中采样出来的 mmm 个样本。我们通过训练希望得到一个

2024-06-20 21:16:23 11096

原创 Improved Denoising Diffusion Probabilistic Models

Improved Denoising Diffusion Probabilistic ModelsTL; DR:iDDPM 分析了 DDPM 形式化和训练过程的一些不足,并提出了可学习方差、余弦噪声计划、非均匀的时间步采样策略等多项改进。前置知识本文是针对 DDPM 的改进,首先来回顾一下 DDPM 的细节。定义给定数据分布 x0∼q(x0)x_0\sim q(x_0)x0​∼q(x0​) ,我们通过一个联合分布 q(x1,…,xT)q(x_1,\dots,x_T)q(x1​,…,xT​) 来定

2024-06-12 20:56:29 974

原创 Understanding Diffusion Objectives as the ELBO with Simple Data Augmentation

VDM++ 在其前作 VDM 的基础上进一步在理论上分析了扩散模型中的 ELBO 目标。将得分匹配、噪声估计等训练目标通过不同的加权函数统一到 ELBO 目标中,并进一步掲示了当加权函数是单调函数时,不同的扩散模型训练目标相当于 ELBO 目标搭配上简单的数据扩增(加性高斯)。对后续许多扩散模型(如 SD3)的训练策略设计产生了重大影响。

2024-06-10 03:14:43 1197

原创 VDM Variational Diffusion Models

本文定义了信噪比函数SNRtαt2σt2SNRtαt2​σt2​,从变分下界的角度推导了扩散模型的损失函数。并对其中的扩散损失项在离散时间情形和连续时间情形下进行了推导,结合信噪比函数得出了一个极简洁的形式。进一步地,作者推导出在连续时间情形下,扩散模型规格(以 SNR 的形式)对扩散损失的影响仅体现在t0t=0t0和t1t=1t1两处端点上,而与中间的αtσtαt​σt​。

2024-06-06 14:46:51 1101 1

原创 Common Diffusion Noise Schedules and Sample Steps are Flawed

现在有很多新的采样器,在推理生图时只使用很少的步数,就能达到不错的生图结果。现在一般是在训练时对全部TTT(如T1000T=1000T1000)步训练,在推理时只需要采样SSS(如S25S=25S25​) 步来生图。调整采样步数可以在推理生图时实现效率和质量的权衡。然而,现在很多少步数的采样器在时间步的选择上,并没有从最后一步开始(如下表所示)。

2024-05-31 01:07:55 1896

原创 Imagen Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

Imagen 是一种级联的 pixel-based 的图像生成模型,先生成 64x64 的小图,再经过两级超分模型,生成 256x256、1024x1024 的大图;scaling 文本编码器比 scaling 扩散生图模型带来的提升要显著得多。用纯文本预训练的超大语言模型,(相比于 CLIP 文本编码器)更适合作为文生图模型的文本编码器;动态阈值有助于解决 pixel-based 条件生成模型在生图时 CFG scale 太大导致的训练推理不匹配的问题;

2024-05-29 22:26:19 1108

原创 From Parts to Whole A Unified Reference Framework for Controllable Human Image Generation

Parts2Whole 的两个关键技术点,一是密集的人体部位外观编码器,避免了只使用 CLIP 图像编码器导致特征倾向于高层语义特征的问题,丰富了纹理细节特征,对于精细的人体特征生成更友好。二是使用了(带掩码的)共享 KV 自注意力机制,来实现与参考图一致的定制化生成。

2024-05-27 12:56:25 948

原创 SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

SDXL 三个主要的改进:1)更大的模型,这不必多说,已经是如今深度学习的趋势。2)微条件,这是一种比较巧妙的提升数据质量和数量的方式,更高效利用数据。3)引入 refine 精修模型,没具体评测过,不够貌似没什么人用呢。

2024-05-20 22:15:13 1203

原创 Playground v2.5 Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation

Playground v2.5 是目前开源的比较好的通用生成模型,其生图结果的美学质量确实更高,并且在语义理解、人体肢体、多分辨率等方面也相比 SDXL 有明显的提升。

2024-05-20 16:45:16 620

原创 Diffusion Inversion技术

Inversion 技术的两个关键目标是重构性能和编辑性能,既要与原图布局结构大致保持一致,又要能够按照新的 prompt 合理地编辑修改图中的语义内容。DDIM 本身是一种确定性的采样过程,十分适合作 Inversion,也是扩散模型 Inversion 的常用 baseline。当引入 CFG 文本条件控制后,重构编辑过程要求有较高的条件引导系数,使得问题进一步复杂。

2024-05-13 15:15:10 5112 2

auto_login.py

0积分 免费下载 东华大学校园网自动登录脚本(非selenium,可远程ssh操作),之前流传的东华大学校园网自动登录脚本都是使用自动化测试库selenium实现。虽然在图形界面可以完成自动登录的需求,但是当需要远程ssh操作链接时则无能为力了。本资源由实验室开发,通过requests库及重定向技术实现,单个py文件,预装python3即可使用。 有报错可联系博主

2021-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除