自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 【T2I】IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Ge

像Stable diffusion 3、Omost和FLUX这样的高级扩散模型在合成文本到图像的生成方面取得了显著的进步。然而,这些方法通常在组合生成方面表现出不同的优势其中一些擅长处理属性绑定,另一些擅长处理空间关系。这种差异突出了需要一种能够利用各种模型的互补优势来全面提高组合能力的方法。为此,我们引入了IterComp,这是一个新的框架,它聚合了来自多个模型的组合感知模型偏好,并采用迭代反馈学习方法来增强组合生成。属性绑定、空间关系和非空间关系。

2025-04-09 18:37:51 738

原创 【T2I】ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance

最近的文本到图像定制工作已经被证明是成功的,通过在几个例子上微调扩散模型来生成给定概念的图像。然而,基于调谐的方法本质上倾向于过度拟合概念,导致在多种条件下无法创建概念(例如,在生成“a <sks> dog戴着耳机”时缺少耳机)。有趣的是,我们注意到,在微调之前的基本模型显示出将基本概念与其他元素组合在一起的能力(例如,“一只戴着耳机的狗”),这意味着组合能力只有在个性化调整后才会消失。

2025-04-08 16:56:36 535

原创 【T2I】MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance

文本到图像生成模型的最新进展极大地增强了从文本提示生成逼真图像的能力,从而增加了对个性化文本到图像应用的兴趣,特别是在多主题场景中。然而,这些进展受到两个主要挑战的阻碍:首先,需要根据文本描述准确地保持每个引用主题的细节;其次,在不引入不一致性的情况下,在单个图像中实现多个主题的内聚表示的困难。为了解决这些问题,我们的研究引入了MS-Diffusion框架,用于布局引导的多主体零样本学习图像个性化。这种创新的方法将接地令牌与特征重采样器集成在一起,以保持主题之间的细节保真度。

2025-04-07 18:50:53 769

原创 【T2I】MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis

我们提出了一个多实例生成(Multi-Instance Generation, MIG)任务,在一个图像中同时生成具有不同控件的多个实例。给定一组预定义的坐标及其相应的描述,任务是确保生成的实例准确地位于指定位置,并且所有实例的属性都符合其相应的描述。这扩大了当前单实例生成研究的范围,将其提升到一个更通用和实用的维度。受分而治之思想的启发,我们引入了一种名为多实例生成控制器(MIGC)的创新方法来解决MIG任务的挑战。最初,我们将MIG任务分解为几个子任务,每个子任务都涉及单个实例的着色。

2025-04-07 17:40:27 762

原创 【T2I】Mastering Text-to-Image Diffusion:Recaptioning, Planning, and Generating with Multimodal LLMs

扩散模型在文本到图像的生成和编辑中表现出优异的性能。但是,现有方法在处理涉及具有多个属性和关系的多个对象的复杂文本提示时经常面临挑战。在本文中,我们提出了一个全新的无需训练的文本到图像的生成/编辑框架,即重捕获,计划和生成(RPG),利用多模态大型语言模型强大的思维链推理能力来增强文本到图像扩散模型的组合性。我们的方法使用MLLM作为全局规划器,将生成复杂图像的过程分解为子区域内的多个更简单的生成任务。我们提出互补的区域扩散,以实现区域明智的成分生成。

2025-04-01 15:04:51 566

原创 【】T2I-CompBench++: An Enhanced andComprehensive Benchmark for CompositionalText-to-image Generation

尽管文本到图像模型取得了令人印象深刻的进步,但它们往往难以有效地组合具有多个对象的复杂场景,显示各种属性和关系。为了应对这一挑战,我们提出了T2I-CompBench++,这是一个用于合成文本到图像生成的增强基准。T2I-CompBench++包含8,000个组合文本提示,分为四大类:属性绑定、对象关系、生成计算和复杂组合。这些进一步分为八个子类,包括新引入的3d空间关系和计算能力。除了基准之外,我们还提出了增强的评估指标,旨在评估这些不同的构成挑战。

2025-03-31 17:35:04 292

原创 【T2I】PreciseControl: Enhancing Text-To-ImageDiffusion Models with Fine-Grained Attribute Control

最近,我们看到了文本到图像(t2i)扩散模型的个性化方法激增,该模型使用少量图像来学习概念。现有的人脸个性化方法难以实现令人信服的身份保留反转,并且依赖于对生成的人脸进行基于语义文本的编辑。但是,需要更细粒度的控件来编辑面部属性,这很难仅通过文本提示来实现。相比之下,StyleGAN模型预先学习脸,并通过潜在操作实现对细粒度属性编辑的平滑控制。本工作使用StyleGANs的解纠缠W+空间来约束T2I模型。这种方法允许我们精确地操纵面部属性,例如平滑地引入微笑,同时保留T2I模型中固有的粗糙的基于文本的控制。

2025-03-31 14:32:28 639

原创 【T2I】Multi-Concept Customization of Text-to-Image Diffusion

当生成模型生成从大规模数据库中学习的概念的高质量图像时,用户通常希望合成他们自己的概念的实例(例如,他们的家庭,宠物或物品)。我们能教一个模型快速掌握一个新概念吗,给出几个例子?此外,我们能否将多个新概念组合在一起?我们提出自定义扩散,一种有效的方法来增强现有的文本到图像模型。我们发现仅优化文本到图像调节机制中的几个参数就足以强大地表示新概念,同时实现快速调优(~ 6分钟)。此外,我们可以对多个概念进行联合训练,或者通过封闭式约束优化将多个微调模型组合成一个模型。

2025-03-24 17:00:20 628

原创 【T2I】Divide & Bind Your Attention for Improved Generative Semantic Nursing

新兴的大规模文本到图像生成模型,如稳定扩散(SD),已经显示出高保真度的压倒性结果。尽管取得了巨大的进步,但目前最先进的模型仍然难以完全按照输入提示生成图像。之前的研究,Attend & Excite,引入了生成语义护理(GSN)的概念,旨在优化推理时间的交叉注意,以更好地整合语义。它在生成简单提示(例如,“一只猫和一只狗”)方面展示了令人鼓舞的结果。然而,在处理更复杂的提示时,它的有效性下降,并且它没有明确地解决不正确的属性绑定问题。

2025-03-24 15:15:54 987

原创 MaskAttn-UNet: A Mask Attention-Driven Framework for UniversalLow-Resolution Image Segmentation

在机器人、增强现实和大规模场景理解等现实应用中,低分辨率图像分割是至关重要的,在这些应用中,由于计算限制,通常无法获得高分辨率数据。为了解决这一挑战,我们提出了MaskAttn-UNet,这是一个新的分割框架,通过掩码注意机制增强了传统的UNet架构。我们的模型选择性地强调重要的区域,同时抑制不相关的背景,从而提高了在杂乱和复杂场景下的分割精度。与传统的U-Net变体不同,MaskAttn-UNet有效地平衡了局部特征提取与更广泛的上下文感知,使其特别适合低分辨率输入。

2025-03-24 13:38:46 789

原创 【T2I】RealCustom: Narrowing Real Text Word for Real-Time Open-DomainText-to-Image Customization

文本到图像自定义旨在为给定主题合成文本驱动的图像,它最近彻底改变了内容创建。现有的作品遵循伪词范式,即将给定的主题表示为伪词,然后与给定的文本组合在一起。然而,假词与给定文本固有的纠缠影响范围导致了一个双最优悖论,即给定主题的相似性和给定文本的可控制性不能同时达到最优。我们提出的RealCustom首次通过精确地将主题影响限制在相关部分,从而将相似性与可控性分开,通过逐渐将真实文本单词从其一般内涵缩小到特定主题,并使用其交叉注意来区分相关性来实现。

2025-03-19 17:31:48 556

原创 【T2I】MasaCtrl: Tuning-Free Mutual Self-Attention Control for ConsistentImage Synthesis and Editing

尽管在大规模文本到图像生成和文本条件图像编辑方面取得了成功,但现有方法仍然难以产生一致的生成和编辑结果。例如,生成方法通常无法合成具有不同视角或姿势的相同对象/角色的多个图像。同时,现有的编辑方法要么无法在保持整体纹理和特征的前提下实现有效的复杂非刚性编辑,要么需要耗时的微调来捕捉图像特定的外观。在本文中,我们开发了MasaCtrl,一种无需调整的方法,可以同时实现一致的图像生成和复杂的非刚性图像编辑。具体来说,MasaCtrl将扩散模型中已有的自注意转换为相互的自注意力机制。

2025-03-17 23:12:15 1030

原创 【T2I】Attention Distillation

生成扩散模型的最新进展显示了对图像风格和语义的显著固有理解。在本文中,我们利用来自预训练扩散网络的自注意力机制特征将视觉特征从参考转移到生成的图像。与之前使用这些特征作为即插即用属性的工作不同,我们提出了一种新的注意力蒸馏损失,在理想和当前风格化结果之间计算,在此基础上,我们通过潜在空间中的反向传播优化合成图像。接下来,我们提出了一种改进的分类器指南,将注意力蒸馏损失集成到去噪采样过程中,进一步加速了合成并实现了广泛的图像生成应用。

2025-03-13 16:23:49 1026

原创 数据集和指标

交叉注意力的计算成本会随着名词短语数量的增加而增加,稳定扩散采用了 CLIP 文本编码器,并自动将序列填充为 77 个标记,因此大部分注意力图都是通过填充嵌入来计算的。计算了去噪网络上采样分支(U-Net)的中间块和第一个块的交叉注意图上的损失,发现这是平衡控制和保真度的最佳设置。由于生成图像的布局通常是在推理的早期阶段确定的,因此在扩散过程的。由于它的大多数参数都是冻结的,因此与DB相比,CD提高了可编辑性和可重构性,它仍然难以保持概念的外观或与输入图像解耦,特别是如图的第一和最后一行所示。

2025-03-07 15:20:30 669

原创 【T2I】Attention Calibration for Disentangled Text-to-Image Personalization

最近,大规模文本到图像(tt2i)模型取得了令人兴奋的进展,解锁了人工智能生成内容(AIGC)的空前合成质量,包括图像生成、3D和视频合成。此外,个性化技术使仅给定几个图像作为参考,就可以吸引人地定制新概念的生产。然而,一个有趣的问题仍然存在:有可能从一个参考图像中捕获多个新颖的概念吗?在本文中,我们发现现有的方法不能保持与参考图像的视觉一致性,也不能消除概念的交叉影响。为了缓解这一问题,我们提出了一种注意力校准机制,以提高对T2I模型的概念层面理解。

2025-03-05 17:03:55 689

原创 【I2I】Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation

大规模文本到图像生成模型是生成式人工智能发展过程中的一个革命性突破,它可以合成具有高度复杂视觉概念的各种图像。然而,利用这些模型进行现实世界内容创建的一个关键挑战是如何让用户控制生成的内容。在本文中,我们提出了一个新的框架,将文本到图像的合成提升到图像到图像的翻译领域--给定一个引导图像和一个目标文本提示作为输入,我们的方法利用预先训练好的文本到图像扩散模型的力量,生成一个符合目标文本的新图像,同时保留引导图像的语义布局。具体来说,我们通过观察和经验证明,

2025-01-13 17:23:06 920

原创 【T2I】 Dense Text-to-Image Generation with Attention Modulation

现有的文本到图像扩散模型很难合成出具有密集标题的逼真图像,在这种情况下,每个文本提示都提供了对特定图像区域的详细描述。为了解决这个问题,我们提出了 DenseDiffusion,这是一种无需训练的方法,它可以调整预先训练好的文本到图像模型,以处理这种密集的标题,同时提供对场景布局的控制。我们首先分析了生成的图像布局与预训练模型的中间注意力图之间的关系。接下来,我们开发了一种注意力调节方法,可根据布局引导将对象显示在特定区域。

2024-12-19 16:24:59 553

原创 【T2I】FreeControl

最近的方法,如ControlNet[59],为用户提供了对文本到图像(T2I)扩散模型的细粒度空间控制。然而,辅助模块必须针对每种类型的空间条件、模型架构和检查点进行训练,这使得它们与人类设计师在内容创建过程中想要传达给AI模型的各种意图和偏好不一致。在这项工作中,我们提出了FreeControl,这是一种可控制的T2I生成的免培训方法,同时支持多种条件、架构和检查点。FreeControl设计了结构引导,以促进与引导图像的结构对齐,并设计了外观引导,以实现使用相同种子生成的图像之间的外观共享。

2024-12-12 15:10:45 926

原创 【T2I】Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis

我们提出Zero-Painter,这是一种新颖的无训练框架,用于布局条件下的文本到图像合成,有助于从文本提示创建详细和受控的图像。我们的方法利用对象蒙版和个体描述,加上全局文本提示,生成高保真度的图像。Zero-Painter采用了两个阶段的过程,包括我们新颖的提示调整交叉注意(PACA)和区域分组交叉注意(ReGCA)块,确保生成的对象与文本提示和掩模形状精确对齐。我们广泛的实验表明,ZeroPainter在保留文本细节和坚持掩模形状方面超越了目前最先进的方法。

2024-12-05 23:01:58 779

原创 【T2I】Diffusion Self-Guidance forControllable Image Generation

大规模生成模型能够从详细的文本描述中生成高质量的图像。然而,图像的许多方面很难或不可能通过文字来传达。我们引入了自我引导,这是一种通过引导扩散模型的内部表示来更好地控制生成图像的方法。我们证明了物体的形状、位置和外观等属性可以从这些表示中提取出来,并用于引导采样过程。自我引导的操作类似于标准分类器引导,但使用存在于预训练模型本身的信号,不需要额外的模型或训练。

2024-11-24 14:03:41 724

原创 【T2I+layout】BoxDiff

最近的文本到图像扩散模型已经证明了其产生高质量图像的惊人能力。然而,研究人员主要研究的是只有文本提示的图像合成方法。虽然一些工作已经探索了使用其他模式作为条件,但培养模型需要大量成对数据,例如盒/掩模图像对和微调时间。由于这种配对数据的获取既耗时又费力,而且被限制在一个封闭的集合中,这可能成为开放环境中应用程序的瓶颈。本文的重点是用户提供条件的最简单形式,如盒子或涂鸦。为了缓解上述问题,我们提出了一种不需要训练的方法来控制合成图像中的对象和上下文符合给定的空间条件。

2024-11-22 12:38:29 572

原创 【T2I】Training-free structured diffusion guidance for compositional text-to-image synthesis

大规模扩散模型在文本到图像合成(T2I)任务中取得了最先进的成果。尽管它们能够生成高质量且富有创意的图像,但我们发现,属性绑定和合成能力仍被认为是具有挑战性的主要问题,尤其是在涉及多个对象时。属性绑定要求模型将对象与正确的属性描述关联起来,而合成能力则要求模型将多个概念组合并生成一幅图像。在这项工作中,我们改进了 T2I 模型的这两个方面,以实现更准确的图像合成。为此,我们根据基于扩散的 T2I 模型中,将语言结构与扩散引导过程结合起来。我们观察到,。

2024-11-21 15:18:11 847

原创 【T2I】Training-Free Layout Control with Cross-Attention Guidance

最近基于扩散的生成器可以根据文本提示生成高质量的图像。然而,他们经常忽略文本说明,即指定的空间布局的组成。我们提出了一种简单的方法来实现鲁棒的布局控制,而不需要对图像生成器进行训练或微调。我们的技术操纵模型用来连接文本和视觉信息的交叉关注层,并在给定的期望方向上引导生成,例如,用户指定的布局。为了确定如何最好地引导注意力,我们研究了注意图的作用,并探索了两种替代策略,向前和向后引导。

2024-11-17 19:31:56 709

原创 【T2L+L2I】LLM-grounded Diffusion

文本到图像扩散模型的最新进展在生成逼真和多样化的图像方面取得了令人印象深刻的结果。然而,这些模型仍然难以处理复杂的提示,比如那些涉及计算和空间推理的提示。这项工作旨在提高对扩散模型的快速理解能力。我们的方法利用一个预训练的大型语言模型(大型语言模型)在一个新的两阶段过程中进行接地生成。在第一阶段,大型语言模型生成一个场景布局,该布局由描述所需图像的给定提示框组成。在第二阶段,一种新的控制器引导现成的扩散模型用于布图接地图像生成。这两个阶段都利用现有的预训练模型,没有额外的模型参数优化。

2024-11-14 15:32:49 623

原创 【T2I+L2I】RealCompo: Balancing Realism and CompositionalityImproves Text-to-Image Diffusion Models

扩散模型在文本到图像的生成方面取得了显著的进步。然而,现有模型在面对多对象合成生成时仍存在许多困难。在本文中,我们提出了一种全新的免训练、易传输的文本到图像生成框架 RealCompo,旨在利用文本到图像模型和空间感知图像扩散模型(如布局、关键点和分割图)各自的优势,增强生成图像的真实感和合成性。我们提出了一种直观而新颖的平衡器,可在去噪过程中动态平衡两种模型的优势,从而允许即插即用任何模型,而无需额外的训练。

2024-11-13 12:45:53 948

原创 【T2L+L2I】LayoutLLM-T2I: Eliciting Layout Guidance from LLM forText-to-Image Generation

在文本到图像生成领域,稳定扩散(Stable Diffusion)技术最近取得的显著进展使生成丰富的新颖逼真图像成为可能。然而,目前的模型在复杂的自然场景中仍然面临着对位错误的问题(如空间关系理解问题和数字失效),这阻碍了高忠实度文本到图像的生成。虽然最近有人努力通过提供细粒度的引导(如草图和涂鸦)来提高可控性,但由于用户必须手动提供这些引导信息,因此这一问题尚未从根本上得到解决。在这项工作中,我们致力于合成高保真图像,这些图像在语义上与给定的文字提示相一致,而无需任何引导。为此,我们提出了一种。

2024-11-11 17:09:22 825

原创 【T2I】Towards Better Text-to-Image GenerationAlignment via Attention Modulation

在文本到图像的生成任务中,扩散模型的进步促进了生成结果的保真度。然而,这些模型在处理包含多个实体和属性的文本提示时遇到了挑战。注意力分布的不均匀导致了实体泄漏和属性错位问题。从头开始培训以解决这个问题需要大量的标记数据,并且非常消耗资源。基于此,我们提出了一种attributionfocusing机制,即一种通过调节扩散模型的无训练phase-wise机制。我们的核心思想之一是引导模型在不同的的相应语法成分。为了实现这一目标,我们在自关注模块的早期阶段加入了,以减轻实体泄漏问题。在交叉注意模块中集成了和分。

2024-11-08 14:24:10 784

原创 【T2I】Attend-and-Excite

最近的文本到图像生成模型已经展示出了无与伦比的能力,可以在目标文本提示的引导下生成多样化和创造性的图像。尽管具有革命性意义,但目前最先进的扩散模型仍可能无法生成完全表达给定文本提示语义的图像。我们分析了公开可用的稳定扩散模型,并评估了是否存在灾难性忽略,即模型无法根据输入提示生成一个或多个主题。此外,我们还发现在某些情况下,模型也无法正确地将属性(如颜色)绑定到相应的主题上。为了帮助缓解这些失败情况,我们引入了生成语义护理(GSN)的概念,即在推理过程中即时干预生成过程,以提高生成图像的忠实度。

2024-11-07 17:08:47 562

原创 【T2L+T2I】Grounded Text-to-Image Synthesis with Attention Refocusing

在大规模数据集上训练的可扩展扩散模型的推动下,文本到图像的合成方法取得了令人瞩目的成果。然而,这些模型仍然无法精确地遵循涉及多个对象、属性或空间组合的文本提示。在本文中,我们揭示了扩散模型的交叉注意层和自我注意层的潜在原因。我们提出了两种新的损失,在采样过程中根据给定的空间布局重新聚焦注意力图。手动创建布局需要额外的努力,而且可能很乏味。因此,我们探索使用大型语言模型(LLM)来为我们的方法生成这些布局。我们在 DrawBench、HRS 和 TIFA 基准上进行了大量实验,以评估我们提出的方法。

2024-11-06 17:13:24 954

原创 【T2I+L2I】CoMat

扩散模型在文本到图像生成领域取得了巨大成功。然而,缓解文本提示与图像之间的不对齐问题仍具有挑战性。概念无知和概念错配。为了解决这两个难题,我们提出了 CoMat--一种端到端扩散模型微调策略和图像到文本的概念匹配机制。首先,我们引入了一个新颖的图像-文本概念激活模块,以引导扩散模型重新审视被忽略的概念。此外,我们还提出了一个属性集中模块,用于将每个实体的文本条件正确映射到相应的图像区域。

2024-11-03 18:23:13 635

原创 【T2I】InstanceDiffusion: Instance-level Control for Image Generation

文本到图像的扩散模型可以生成高质量的图像,但无法对图像中的单个实例进行控制。我们引入的实例扩散(InstanceDiffusion)为文本到图像扩散模型增加了精确的。InstanceDiffusion 支持每个实例的自由格式语言条件,并允许以灵活的方式指定实例位置,如简单的单点、涂鸦、边界框或复杂的实例分割掩码,以及它们的组合。我们提出了文本到图像模型的三大变革,实现了精确的实例级控制。我们的 UniFusion 模块实现了,ScaleU 模块,我们的提高了多实例的生成。

2024-11-02 20:03:07 732

原创 【T2I 】LaCon-后约束扩散

扩散模型在生成逼真的创意图像方面表现出了令人印象深刻的能力。为了给生成过程提供更多的可控性,现有的研究(本文称之为早期约束方法)利用额外的条件,并将其纳入预先训练好的扩散模型中。特别是,其中一些研究采用了特定条件模块来单独处理条件,而这些模块很难在其他条件下通用。虽然后续研究提出了解决泛化问题的统一解决方案,但它们也需要额外的资源来实现,例如额外的输入或参数优化,而更灵活、更高效的解决方案有望实现可转向的引导图像合成。

2024-11-01 17:00:29 839

原创 【T2I】IMAGEN:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

翻译:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (Paper reading)-优快云博客笔记:7、Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding-优快云博客

2024-10-22 15:43:31 162

原创 【T2I】ControlNet

Stable Diffusion — ControlNet 超详细讲解_stable diffusion controlnet-优快云博客

2024-10-16 13:57:13 655

原创 【BBDM】 Image-to-Image Translation with Brownian Bridge Diffusion Models

翻译:BBDM: Image-to-Image Translation with Brownian Bridge Diffusion Models(布朗桥扩散模型) - 知乎 (zhihu.com)笔记 : 布朗桥扩散模型 BBDM:全网最强图像转换算法,完胜 GAN、扩散模型-优快云博客Diffusion学习笔记(十六)——扩散桥,更高级的条件控制 - 知乎 (zhihu.com)布朗桥(Brownian Bridges) - 知乎 (zhihu.com)

2024-10-11 17:29:39 243

原创 【DDPM】

【笔记】扩散模型(五):Classifier-Free Guidance 理论推导与代码实现_classifier-free guidance条件扩散模型python代码-优快云博客。【笔记】Score-based Generative Models(二):基于 SDE 的模型_score based sde-优快云博客。【笔记】扩散模型(四):Classifier Guidance 理论推导与代码实现-优快云博客。(70 封私信 / 10 条消息) BenShui - 知乎 (zhihu.com)

2024-10-11 16:18:29 618

原创 【DiT】Scalable Diffusion Models with Transformers

LayerNorm:channel方向做归一化,计算C*H*W的均值。BatchNorm:batch方向做归一化,计算N*H*W的均值。

2024-10-11 15:07:33 207

原创 【LDM】High-Resolution Image Synthesis with Latent Diffusion Models

4、High-Resolution Image Synthesis with Latent Diffusion Models-优快云博客Stable Diffusion 原理介绍与源码分析(一) - 知乎 (zhihu.com)stable diffusion原理解读通俗易懂,史诗级万字爆肝长文,喂到你嘴里 - 知乎 (zhihu.com)LDM: High-Resolution Image Synthesis with Latent Diffusion Models CVPR 2022-优快云博客hi

2024-10-10 23:29:27 251

原创 【DDIM】Denoising Diffusion Implicit Models

去噪扩散概率模型(DDPMs)无需对抗训练即可生成高质量图像,但它们需要模拟马尔可夫链的多个步骤才能生成样本。为了加快采样速度,我们提出了去噪扩散隐含模型(DDIMs),这是一类更高效的迭代隐含概率模型,其训练过程与 DDPMs 相同。在 DDPMs 中,生成过程被定义为特定马尔可夫扩散过程的反向。我们通过一类能达到相同训练目标的非马尔可夫扩散过程来推广 DDPMs。这些非马尔可夫过程可以对应于确定性的生成过程,从而产生能更快地生成高质量样本的隐式模型。

2024-10-10 23:13:23 1037

原创 【DDPM】Denoising Diffusion Probabilistic Models

我们介绍了利用扩散概率模型获得的高质量图像合成结果,扩散概率模型是一类受非平衡态热力学启发的潜在变量模型。我们的最佳结果是通过在加权变分约束上进行训练获得的,而加权变分约束是根据扩散概率模型和去噪分数匹配与朗格文动力学之间的新联系设计的。在无条件的 CIFAR10 数据集上,我们获得了 9.46 分的入门分数和 3.17 分的先进 FID 分数。在 256x256 LSUN 上,我们获得了与 ProgressiveGAN 类似的样本质量。

2024-10-10 21:22:19 947

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除