生成模型
文章平均质量分 94
zzfive
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Ovi-音视频生成模型
Ovi采用对称双主干网络设计,其音频分支与视频分支并行构建,且二者均基于完全相同的DiT架构。其中,视频分支由Wan2.2 5B模型初始化,而结构完全一致的音频分支则采用从头训练。因此,两个主干网络拥有相同数量的Transformer块、注意力头、注意力头维度以及前馈网络,实现了每一层级的对称性,具体细节如表 1 所示。表1 Ovi双主干网络的Transformer超参数每个Transformer块都包含成对的交叉注意力层:音频流会对视频流进行注意力计算,而视频流也会反过来对音频流进行注意力计算。原创 2025-10-16 23:04:58 · 1110 阅读 · 0 评论 -
Qwen3-Omni
如图1所示,Qwen3-Omni采用 “思考者 - 对话者”(Thinker-Talker)架构。Thinker与Talker均采用MoE架构,以支持高并发处理与快速推理;Talker不再接收Thinker的高层级文本表征,仅以音频和视觉多模态特征作为条件(进行语音生成)。该设计的核心考量如下:(1)对于文本内容而言,离散token与嵌入向量在信息层面具有等效性;(2)多模态条件控制对于 “音视频协同语音生成” 至关重要,例如在语音翻译任务中需保持语音的韵律与音色。原创 2025-10-03 16:03:15 · 922 阅读 · 0 评论 -
FramePack
本文提出了一种神经网络结构FramePack,旨在解决视频生成领域中下一帧预测模型面临的“遗忘 - 漂移”困境。FramePack会根据输入帧的重要性对其进行渐进式压缩,确保无论视频时长如何,总上下文长度都能收敛到一个固定的上限。这一目标通过为不同压缩率调整Transformer的分块核大小来实现。结合抗漂移采样方法,该方法通过提前确定的端点或反转的时间顺序融入双向上下文,能够在保持计算瓶颈不变的前提下,生成更长的视频。原创 2025-09-19 21:53:58 · 816 阅读 · 0 评论 -
Wan系列模型解析--VACE
DiT在生成高质量图像和视频方面已展现出强大的能力与可扩展性,进一步追求生成与编辑任务的统一需求也越来越明显,但由于视频合成对时空动态一致性存在内在需求,实现视频合成的统一方法仍面临挑战。本文提出 VACE,即一体化视频创作与编辑框架,该框架支持用户在单一平台内完成多种视频任务,包括图片生视频、视频编辑以及掩码引导的视频编辑。原创 2025-09-07 23:11:51 · 1167 阅读 · 0 评论 -
Flux.1系列模型解析--Kontext
Flux.1 Kontext是将图像生成和编辑任务统一的生成流匹配模型,其通过整合文本和图像输入中的语义上下文,生成全新的输出视图。Flux.1 Kontext采用简单的序列拼接,在单一的统一架构中同时处理局部编辑和生成式上下文任务;其在多轮操作中对物体和字符有较强的保留能力,相较于其他SOTA编辑模型生成速度也更快;为了验证上述改进,论文提出了KontextBench,包含1026个图像-提示词对数据,覆盖局部编辑、全局编辑、字符参考、风格参考和文本编辑五类任务。原创 2025-08-12 22:16:20 · 2001 阅读 · 0 评论 -
Flux.1系列模型解析--Flux.1 Tools
Flux.1模型的基础能力已经很强,但是局部生成、控制生成等方面仍不足,bfl随进一步训练,开发了Flux.1 Tools系列模型,包含四个模型,具体情况如下。Fill:根据文本描述和二进制掩码编辑或扩展输入图像,即Inpainting和Outpainting,是一个基模型Redux:一个能对输入图片进行细微变化或调整的Adapter模型,可以和所有Flux.1基模型组合使用Depth:可接受条件图像的深度信息控制生成图片,有基模型或lora模型。原创 2025-08-05 22:32:03 · 925 阅读 · 0 评论 -
Flux.1系列模型解析--Flux.1
Flux.1模型有三个版本,分别是pro、dev和schnell,三个模型性能依次递减,但生图效率依次提高。dev和schnell基于pro模型蒸馏而来,pro模型只能通过api访问,而dev、shcnell模型可获取具体权重,bfl并没有对Flux.1系列模型架构进行过多展示,只表明基于多模态和并行扩散 Transformer 模块的混合架构,参数扩展到了12B;通过基于流匹配范式训练,且引入旋转位置编码和并行注意力层来提高模型性能并提升硬件效率。图1 Flux.1模型架构图。原创 2025-07-31 19:32:58 · 1572 阅读 · 0 评论 -
早期SD模型控制生成方法
Stable Diffusion系列模型出现,极大推动了扩散模型、AI图片生成技术发展,但由于生成结果可控性差使得其主要流行于各种社区,难以直接应用于生产,不能实际落地。随着技术发展,模型基础能力越来越强,生成可控性也越来越好,但即使如今的Flux、SD3、MJ、GPT-4o等各系列模型中也没有完全解决此问题。在SD模型初期出现过各种提高控制性生成的方法,本文档对其中使用较广泛的三个进行简短说明。原创 2025-07-20 17:05:54 · 1215 阅读 · 0 评论 -
CFG的前世今生
DDPM将扩散模型在图片生成任务中做work后,大量研究人员开始对其进行迭代。虽然DDPM论文证明了扩散模型在图片生成任务中的潜力,但是其整体性能,特别是“有条件生成”,相较于当时的GAN系列模型还是存在差距,直到Openai的这篇论文出现,扩散模型在有条件图片生成任务上超过了GANs,而这篇论文对上篇论文中的核心思想进行优化,提高模型的性能和计算效率,该方法就是目前在扩散模型生成领域广泛使用的CFG。原创 2025-06-19 22:53:21 · 660 阅读 · 0 评论 -
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
本文提出的视觉自回归建模/VAR这种新范式,其将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”,与常规的LLM预测下一个token的范式不同。VAR首次基于GPT架构的AR模型在图片生成方面超过了扩散模型,在 ImageNet 256×256 基准测试中,FID、IS分数均大幅提高,推理速度也快了将近20倍。实验证实,VAR在图像质量、推理速度、数据效率和可扩展性等多个维度由于DiT,且其具有明显的Scaling规律,在图像修复、外绘、编辑等下游任务中具有较好的泛化能力。原创 2025-06-14 17:22:54 · 1051 阅读 · 0 评论 -
从扩散模型开始的生成模型范式演变--SDE(3)
在SDE的第二篇文章中提到过,SDE范式可以将DDPM和Score Matching整合到其范式中。起初笔者对这部分也不是很清晰,在看过B站Up主的视频后逐渐清晰,本文就基于该视频内容做一个文本性质的总结,感兴趣的读者可跳转到视频进一步了解。原创 2024-12-12 01:02:04 · 802 阅读 · 0 评论 -
从扩散模型开始的生成模型范式演变--FM(2)
我认为是有的,只不过是隐式的,不明显。我认为Flow matching中的前向过程并不是向扩散模型中通过定义显式的加噪分布来进行的,而是从目标分布中的数据推导出先验分布中的数据这一流动作实现的。说到这里,可能有的读者已经意识到了我想表达的内容,即从上述公式(1)推导公式(2)的过程中,我们利用了流的可逆性质,因为流可逆,所以基于公式(1),有。就是一个从标准正态分布中采样的一个随机噪声,就是先验分布中的一个数据样本,即我们在公式(2)的推导过程中其实是隐式的使用了一个从目标分布到先验分布的。原创 2024-12-14 15:10:37 · 771 阅读 · 0 评论 -
从扩散模型开始的生成模型范式演变--FM(1)
ut。原创 2024-12-08 00:11:45 · 1355 阅读 · 0 评论 -
从扩散模型开始的生成模型范式演变--SDE(2)
相信很多读者自己学习或在看完上一篇文章后,对SDE实际如何使用情况还是不清楚。其实,因为SDE是随机微分方程,所以其与DDPM中加噪的方差其实都是人为设定的,相当于超参数。所以在训练前就需要将SDE具体形式定义好,在此将SDE定义为dxσtdωt∈01(1)dxσtdωt∈011公式(1)中丢弃了SDE定义中的漂移部分,只设置了扩散部分。此时已将时间区间正则化,即范围为[0,1],也知道了dxdxdx随时间变化的公式,因为当前加噪是连续过程,故xt。原创 2024-12-03 00:01:54 · 1188 阅读 · 0 评论 -
从扩散模型开始的生成模型范式演变--SDE(1)
假设有一组正等比数列σii1Lσii1L,满足σ1σ2⋯σL−1σL1σ2σ1⋯σLσL−11。qσxΔ∫pdaratNx∣tσ2IdtqσxΔ∫pdaratNx∣tσ2Idt表示扰动后的数据分布。σi\sigma_iσi就表征不同的噪声等级,σ1\sigma_1σ1。原创 2024-11-30 23:43:11 · 1368 阅读 · 0 评论 -
从扩散模型开始的生成模型范式演变--DDPM(2)
因优快云正文字数限制,只能拆分为两个文档,接上文继续文章目录无中生有的目标分布设计感强但有效的损失函数无中生有的目标分布如果我们有过模型训练经验,那就一定知道,需要有一个目标值或GT值与模型预测值计算损失才能实现训练闭环。在前文中我们说到,DDMP就是对“能基于xtx_txt计算出xt−1x_{t-1}xt−1”的逆向分布过程建模,模型训练预测出的分布用pθ(xt−1∣xt)p_{\theta}(x_{t-1}|x_t)pθ(xt−1∣xt)表示,那与预测分布进行比较的目标分布应该如何表示原创 2024-09-19 00:34:58 · 1073 阅读 · 0 评论 -
从扩散模型开始的生成模型范式演变--DDPM(1)
从右到左,是加噪过程,或称为前向过程/正向过程,每一步对上一步随机增加一点噪声,经过T步后,原始图片完全变成一个噪声分布,一般假设是一个标准正太分布,这一过程可由条件概率。如果我们现在只有一批图片数据,从认知上来讲,从随机噪声生成图片是不可能的,此时就用到了引言中提到的,缺什么,就用深度学习去训练。即,有两个高斯分布,DDPM中T为1000,一步一步计算是慢的,但基于马尔可夫过程,使用重参数化技巧,能实现一步到位,即给定。生成过程,是去噪过程,或称为逆向过程,是从随机噪声出发,一步步减少噪声,即从。原创 2024-09-11 00:23:20 · 788 阅读 · 0 评论 -
SiT技术报告阅读
在该框架内,探索了许多关键设计选择之间的权衡:连续或离散时间模型的选择、插值的选择、模型预测的选择以及采样器的选择。DiT团队最近刚好发布了基于DiT架构研究扩散模型插值技术的论文,简称为SiT,论文行文较难理解,感兴趣的读者推荐阅读官方的技术报告,见顶部链接,本文也主要基于技术报告进行初略的解释,因为内容涉及较多公式变换,如有错误,请告知。对应于由不同时间相关函数加权的普通去噪目标的扩散模型的不同模型预测,训练了所有三个模型并给出了下面的结果。相同时,扩散和基于流的方法共享相同的时间演化过程已被证明;原创 2024-03-12 00:37:42 · 2797 阅读 · 0 评论 -
Stable Diffusion 3报告
将 Stable Diffusion 3 的输出图像与其他各种开放模型(包括 SDXL、SDXL Turbo、原创 2024-03-05 22:24:20 · 1434 阅读 · 1 评论 -
stable diffuison论文阅读
stable diffuison论文阅读原创 2022-12-23 13:14:11 · 1025 阅读 · 1 评论 -
Improved Techniques for Training Score-Based Generative Models论文阅读
Improved Techniques for Training Score-Based Generative Models论文阅读原创 2022-12-18 10:35:07 · 1482 阅读 · 0 评论 -
SDE论文阅读
SDE论文阅读原创 2022-12-10 17:13:58 · 1237 阅读 · 0 评论 -
Generative Modeling by Estimating Gradients of the Data Distribution论文阅读
Generative Modeling by Estimating Gradients of the Data Distribution论文阅读原创 2022-12-04 14:31:38 · 563 阅读 · 0 评论 -
IDDPM官方gituhb项目--采样
IDDPM官方gituhb项目--采样原创 2022-11-27 11:48:47 · 2211 阅读 · 4 评论 -
IDDPM官方gituhb项目--训练
IDDPM官方gituhb项目--训练原创 2022-11-27 10:33:42 · 3507 阅读 · 11 评论 -
IDDPM官方gituhb项目--模型构建
IDDPM官方gituhb项目--模型构建原创 2022-11-26 23:23:29 · 3164 阅读 · 6 评论 -
IDDPM论文阅读
IDDPM论文阅读原创 2022-10-07 15:02:16 · 6764 阅读 · 3 评论 -
Glow-pytorch复现github项目
Glow-pytorch复现github项目--模型训练原创 2022-10-04 22:07:38 · 2472 阅读 · 2 评论 -
Normalized Glow论文阅读
Normalized Glow论文阅读笔记原创 2022-10-04 15:10:02 · 1648 阅读 · 2 评论
分享