
扩散模型
文章平均质量分 95
努力学图像处理的小菜
博1
展开
-
UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a Single Image
文本驱动的图像编辑方法通常需要编辑掩码,难以进行需要显著视觉更改的编辑,并且无法轻松保留编辑部分的特定细节。在本文中,我们观察到,只需在单个图像上对图像生成模型进行微调,就可以将其转换为图像编辑模型。我们还表明,在采样前用基础图像的噪声版本初始化随机采样器,并在采样后从基础图像插值相关细节,进一步提高了编辑操作的质量。结合这些观察结果,我们提出了一种新颖的图像编辑方法UniTune。UniTune获取任意图像和文本编辑描述作为输入,并在保持对输入图像的高保真度的同时执行编辑。原创 2024-06-13 15:20:17 · 806 阅读 · 1 评论 -
Imagic: Text-Based Real Image Editing with Diffusion Models
在本文中,我们首次展示了将复杂(例如,非刚性)基于文本的语义编辑应用于单个真实图像的能力。例如,我们可以改变图像中一个或多个对象的姿势和组成,同时保留其原始特征。我们的方法可以让站着的狗坐下,让鸟展开翅膀,等等——每一个都在用户提供的高分辨率自然图像中。与之前的工作相反,我们提出的方法只需要单个输入图像和目标文本(所需的编辑)。它对真实图像进行操作,并且不需要任何额外的输入(例如图像遮罩或对象的额外视图)。我们的方法称为Imagic,利用预先训练的文本到图像扩散模型来完成这项任务。原创 2024-06-12 18:09:56 · 1180 阅读 · 0 评论 -
Negative-prompt Inversion: Fast Image Inversion for Editing with Text-guided Diffusion Models
在使用扩散模型的图像编辑中,在改变其风格的同时保持原始图像的重建质量是至关重要的。尽管现有的方法通过优化来确保重建质量,但这些方法的缺点是优化所需的大量时间。在本文中,我们提出了负提示反演,这是一种能够在不进行优化的情况下仅通过正向传播实现等效重建的方法,从而实现更快的编辑过程。我们通过实验证明,我们的方法的重建质量与现有方法相当,允许在大约5秒内以512像素的分辨率和50个采样步骤进行反演,这比空文本反演快30多倍。原创 2024-06-11 23:03:19 · 1315 阅读 · 1 评论 -
Prompt-to-Prompt Image Editing with Cross Attention Control
编辑对这些生成模型来说是具有挑战性的,因为编辑技术的一个固有特性是保留大部分原始图像,而在基于文本的模型中,即使对文本提示进行微小修改,也往往会导致完全不同的结果。现有技术的方法通过要求用户提供空间掩模来定位编辑,从而忽略掩模区域内的原始结构和内容来减轻这种情况。在本文中,我们追求一个直观的示编辑框架,其中编辑仅由文本控制。为此,我们深入分析了一个文本条件模型,并观察到交叉注意力层是控制图像空间布局与提示中每个单词之间关系的关键。根据这一观察结果,我们提出了几个仅通过编辑文本提示来监控图像合成的应用程序。原创 2024-06-11 22:55:42 · 1176 阅读 · 0 评论 -
Null-text Inversion for Editing Real Images using Guided Diffusion Models
在本文中,我们介绍了一种精确的反转技术,从而有助于直观地对图像进行基于文本的修改。我们提出的反演由两个新的关键组成部分组成:(i)扩散模型的关键反演。虽然目前的方法旨在将随机噪声样本映射到单个输入图像,但我们为每个时间戳使用一个关键噪声向量,并围绕它进行优化。我们证明,直接反演本身是不够的,但确实为我们的优化提供了一个很好的锚。(ii)空文本优化,其中我们只修改用于无分类器引导的无条件文本嵌入,而不是输入文本嵌入。原创 2024-03-27 16:33:20 · 1850 阅读 · 0 评论 -
DREAMCLEAN: RESTORING CLEAN IMAGE USING DEEP DIFFUSION PRIOR
目前的研究主要依赖于恢复类型的先验知识,要么是通过规则明确地定义(DDRM中Liner的假设),要么是通过可用的退化-清晰图像对(End2End)隐含地定义恢复过程,并且需要大量的工作来收集各种退化类型的图像对。本文介绍了DreamClean,这是一种无需训练的方法,无需退化先验知识,但能产生高保真度和普适性,适用于各种图像退化类型。DreamClean将退化图像嵌入到预先训练的扩散模型的潜在空间中,并通过精心设计的扩散过程对其重新采样,模拟生成清晰图像的过程。原创 2024-03-17 12:23:25 · 1327 阅读 · 0 评论 -
Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks
我们提出了一种新的 Diff-Pluggin 框架,使单个预训练的扩散模型能够在各种低级任务中生成高保真结果。具体来说,我们首先提出了一个轻量级的任务-Pluggin模块,该模块具有双分支设计,以提供特定于任务的先验,指导扩散过程保留图像内容。然后,我们提出了一种插件选择器,它可以根据文本指令自动选择不同的 Task-Plugins,允许用户通过指示具有自然语言的多个低级任务来编辑图像。我们对 8 个低级视觉任务进行了广泛的实验。结果表明,Diff-Pluggin 优于现有方法,尤其是在现实场景中。原创 2024-03-14 21:38:36 · 1887 阅读 · 6 评论 -
DIFFWAVE: A VERSATILE DIFFUSION MODEL FOR AUDIO SYNTHESIS (Paper reading)
在这项工作中,我们提出了DiffWave,这是一种用于条件和无条件波形生成的多功能扩散概率模型。该模型是非自回归的,通过具有合成过程中恒定步数的马尔可夫链将白噪声信号转换为结构化波形。通过在数据似然上优化一种变体的变分下界,该模型能够高效训练。DiffWave在不同的波形生成任务中产生高保真音频,包括基于梅尔频谱图的神经声码化、类别条件生成和无条件生成。我们证明DiffWave在语音质量方面与强大的WaveNet声码器相匹配(MOS:4.44对比4.43),同时合成速度更快数个数量级。原创 2024-01-11 23:09:39 · 1348 阅读 · 0 评论 -
Vector Quantized Diffusion Model for Text-to-Image Synthesis
我们提出了用于文本到图像生成的矢量量化扩散(Vector Quantized Diffusion Model;VQ-Diffusion)模型。该方法基于矢量量化变分自编码器(VQ-VAE),其潜在空间由最近开发的去噪扩散概率模型(DDPM)的条件变体建模。我们发现这种潜在空间方法非常适合文本到图像生成任务,因为它不仅消除了现有方法的单向偏差,还允许我们合并掩码和替换扩散策略以避免错误的积累,这是现有方法的严重问题。原创 2023-12-07 16:03:08 · 2188 阅读 · 0 评论 -
What the DAAM: Interpreting Stable Diffusion Using Cross Attention
大规模扩散神经网络是文本到图像生成中的一个重要里程碑,但人们对其了解甚少,缺乏可解释性分析。在本文中,我们对最近开源的模型Stable Diffusion进行了文本-图像归因分析。为了生成像素级归因图,我们在去噪子网络中提升并聚合交叉注意词-像素得分,将我们的方法命名为DAAM。我们通过测试其对名词的语义分割能力以及对所有词性的广义归因质量来评估其正确性,并由人类进行评分。然后,我们应用DAAM来研究语法在像素空间中的作用,表征十种常见依赖关系的头部相关热图交互模式。原创 2023-12-06 22:08:18 · 2463 阅读 · 1 评论 -
ANYTEXT: MULTILINGUAL VISUAL TEXT GENERATION AND EDITING
基于扩散模型的文本到图像最近取得了令人印象深刻的成就。尽管当前用于合成图像的技术是高度先进的,并且能够以高保真度生成图像,但是当聚焦于生成的图像中的文本区域时,仍然有可能泄露显示,因为合成的文本通常包含模糊、不可读或不正确的字符,使得视觉文本生成成为该领域中最具挑战性的问题之一。为了解决这个问题,我们介绍了AnyText,这是一种基于扩散的多语言视觉文本生成和编辑模型,专注于在图像中呈现准确连贯的文本。AnyText包括一个具有两个主要元素的扩散管道:一个辅助潜在模块和一个文本嵌入模块。原创 2023-12-06 19:09:01 · 1825 阅读 · 0 评论 -
Image Super-Resolution with Text Prompt Diffusion
受多模态方法和文本提示图像处理进步的启发,我们将文本提示引入图像SR,以提供退化先验。具体来说,我们首先设计了一个文本图像生成管道,通过文本退化表示和退化模型将文本集成到SR数据集中。文本表示采用基于装箱方法的离散化方式来抽象描述退化。这种表示方法还可以保持语言的灵活性。同时,我们提出了PromptSR来实现文本提示SR。PromptSR采用了扩散模型和预先训练的语言模型(例如T5和CLIP)。我们在生成的文本图像数据集上训练模型。原创 2023-11-29 19:52:52 · 1074 阅读 · 2 评论 -
AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion
我们提出了一种具有潜在扩散的一体化图像恢复系统,名为AutoDIR,它可以自动检测和恢复具有多种未知退化的图像。我们的主要假设是,许多图像恢复任务,如超分辨率、运动去模糊、去噪、弱光增强、去雾和去噪,通常可以分解为一些共同的基算子,这些算子可以在不同方向上提高图像质量。AutoDIR旨在通过与多个图像恢复任务的联合训练,学习一个能够执行这些基本算子的统一图像恢复模型。具体而言,AutoDIR由基于CLIP的盲图像质量评估(BIQA)模块、基于潜在扩散的多功能图像恢复(AIR)模块和结构校正模块组成,原创 2023-11-29 19:07:34 · 2286 阅读 · 0 评论 -
CONTROLLING VISION-LANGUAGE MODELS FOR MULTI-TASK IMAGE RESTORATION
像CLIP这样的视觉语言模型已经显示出对零样本或无标签预测的各种下游任务的巨大影响。然而,当涉及到图像恢复等低水平视觉时,由于输入损坏,它们的性能会急剧下降。在本文中,我们提出了一种退化感知视觉语言模型(DA-CLIP),以更好地将预训练的视觉语言模型转移到低级视觉任务中,作为图像恢复的多任务框架。更具体地说,DA-CLIP训练一个额外的控制器,该控制器调整固定的CLIP图像编码器以预测高质量的特征嵌入。通过交叉关注将嵌入集成到图像恢复网络中,我们能够引导模型学习高保真度图像重建。原创 2023-11-29 14:30:32 · 2213 阅读 · 3 评论 -
Diffusion Autoencoders: Toward a Meaningful and Decodable Representation
扩散概率模型 (DPM) 在图像生成方面取得了显着的质量,可与 GAN 相媲美。但是与 GAN 不同,DPM 使用一组潜在变量,这些变量缺乏语义含义,不能作为其他任务的有用表示。本文探索了使用DPM进行表示学习的可能性,并试图通过自动编码提取输入图像的有意义和可解码的表示。我们的关键思想是使用可学习的编码器来发现高级语义,并使用 DPM 作为解码器来对剩余的随机变化进行建模。我们的方法可以将任何图像编码为两部分潜在编码,其中第一部分在语义上有意义且线性,第二部分捕获随机细节,允许近乎精确的重建。原创 2023-09-27 20:02:03 · 945 阅读 · 0 评论 -
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Mode
本文提出了BLIP-2,一种通用且高效的预训练策略,该策略通过使用现成的冻结预训练图像编码器和大型语言模型,从头开始进行视觉-语言预训练。BLIP-2通过轻量级的查询Transformer来弥合模态差距,并通过两个阶段的预训练实现。第一个阶段从中启动视觉-语言的表示学习。第二个阶段从冻结的启动视觉到语言的生成学习。尽管可训练的参数明显少于现有方法,但BLIP-2在各种视觉-语言任务上实现了最先进的性能。原创 2023-08-23 18:26:05 · 619 阅读 · 0 评论 -
GlyphControl: Glyph Conditional Control for Visual Text Generation
最近,人们对开发基于扩散的文本到图像生成模型的兴趣日益增长,这些模型能够生成连贯且形式良好的视觉文本。在本文中,我们提出了一种名为GlyphControl的新颖高效方法,用于解决这一任务。与现有方法依赖于像ByT5这样的字符感知文本编码器并需要重新训练文本到图像模型不同,我们的方法利用附加的字形条件信息来增强现成的稳定扩散模型在生成准确视觉文本方面的性能。通过整合字形指令,用户可以根据自己的特定需求自定义生成文本的内容、位置和大小。原创 2023-06-12 02:13:18 · 1657 阅读 · 0 评论 -
TextDiffuser: Diffusion Models as Text Painters
扩散模型因其出色的生成能力而受到越来越多的关注,但目前在生成准确连贯的文本方面仍存在困难。为了解决这个问题,我们引入了TextDiffuser,重点是生成具有视觉吸引力的文本,并且与背景一致。首先,一个Transformer模型根据文本提示生成关键词的布局,然后扩散模型根据文本提示和生成的布局生成图像。此外,我们还贡献了第一个带有OCR注释的大规模文本图像数据集MARIO-10M,其中包含1000万个图像-文本对,包括文本识别、检测和字符级分割注释。原创 2023-06-09 00:34:50 · 1538 阅读 · 0 评论 -
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
文本到图像的模型为通过自然语言引导创作提供了前所未有的自由。然而,目前尚不清楚如何利用这种自由度来生成特定独特概念的图像,修改它们的外观,或将它们组合到新的角色和新颖场景中。换句话说,我们要问:如何利用语言引导的模型将我们的猫变成一幅画,或根据我们最喜欢的玩具想象出一种新产品?在这里,我们提出了一种简单的方法,可以实现这种创造性的自由。我们仅使用用户提供的概念(如物体或风格)的3-5张图像,通过冻结的文本到图像模型的嵌入空间中的新“词”来学习表示它。原创 2023-06-07 19:31:34 · 911 阅读 · 1 评论 -
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
大型文本到图像模型在AI的演化中取得了显著的飞跃,实现了从给定文本提示中合成高质量、多样化的图像。然而,这些模型缺乏模仿给定参考集中主题外观并在不同环境中合成新的表现形式的能力。在这项工作中,我们提出了一种新的方法,用于“个性化”文本到图像扩散模型。只需输入主题的几张图像,我们对预训练的文本到图像模型进行微调,使其学习将唯一标识符与特定主题绑定。一旦主题嵌入到模型的输出域中,该唯一标识符可以用于在不同场景中合成主题的新颖逼真的图像。原创 2023-06-07 15:18:03 · 2185 阅读 · 0 评论 -
ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models
我们提出了一种名为ControlNet的神经网络结构,用于控制预训练的大规模扩散模型,以支持额外的输入条件。ControlNet以端到端的方式学习任务特定的条件,并且即使训练数据集较小(< 50k),学习效果也很稳健。此外,训练ControlNet的速度与微调扩散模型的速度一样快,而且该模型可以在个人设备上进行训练。或者,如果有强大的计算集群可用,该模型可以扩展到大量(百万到十亿级)的数据。我们报告了使用ControlNet扩展稳定扩散等大规模扩散模型的结果,以实现诸如边缘映射、分割映射、关键点等条件输入。原创 2023-06-05 13:33:16 · 3362 阅读 · 0 评论 -
A Unified Conditional Framework for Diffusion-based Image Restoration
最近,扩散概率模型(Diffusion Probabilistic Models,DPMs)在图像生成任务中表现出了非凡的性能,能够生成高度逼真的图像。当将DPMs用于图像恢复任务时,关键的一点在于如何整合条件信息,以引导DPMs生成准确和自然的输出,这在现有的研究中往往被忽视。在本文中,我们提出了一个基于扩散模型的统一条件框架,用于图像恢复。我们利用一个轻量级的UNet来预测初始引导,并使用扩散模型学习引导的残差部分。原创 2023-06-01 22:57:20 · 1053 阅读 · 0 评论 -
GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures in Text-to-Image Generation
近期,在语言引导图像生成领域取得了令人瞩目的突破,实现了基于用户指令生成高质量和多样化图像。虽然合成效果令人惊叹,但当前图像生成模型的一个重要局限是其在图像中连贯生成文本的能力不足,尤其是对于复杂的字形结构,如中文字符。为了解决这个问题,我们引入了GlyphDraw,这是一个通用的学习框架,旨在赋予图像生成模型以生成嵌入文本的图像的能力,适用于任何特定语言。原创 2023-05-31 18:26:57 · 443 阅读 · 0 评论 -
DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration
传统的盲脸部修复通常使用预定义的退化模型来合成降质的低质量数据进行训练,而实际世界中可能出现更复杂的情况。假设的退化模型与实际情况之间的差距会影响修复效果,输出结果中经常出现伪影。然而,为了覆盖实际情况,将每种类型的退化都包含在训练数据中是昂贵且不可行的。为了解决这个鲁棒性问题,我们提出了基于扩散的鲁棒退化去除器(DR2),首先将退化图像转化为粗糙但退化不变的预测,然后利用增强模块将粗糙预测恢复为高质量图像。原创 2023-05-23 18:07:30 · 1695 阅读 · 0 评论 -
Towards Coherent Image Inpainting Using Denoising Diffusion Implicit Models (Paper reading)
图像修复是指基于部分显露的参考图像生成完整的、自然的图像的任务。近年来,利用固定扩散模型来解决这一问题一直是人们研究的热点。这些方法通常直接将中间或最终生成的图像的显露区域替换为参考图像或其变体的区域。然而,由于未显示区域没有被直接修改以匹配上下文,因此导致显示区域和未显示区域之间的不一致。为了解决不一致性问题,少数方法引入了严格的贝叶斯框架,但由于计算后验分布时的近似误差,它们往往会在生成的图像和参考图像之间引入失配。在本文中,我们提出了COPAINT,它可以在不引入失配的情况下对整个图像进行一致性修复。原创 2023-04-20 16:13:51 · 687 阅读 · 0 评论 -
Generative Diffusion Prior for Unified Image Restoration and Enhancement (Paper reading)
现有的图像恢复方法大多利用自然图像的后验分布。然而,它们通常假设已知的退化,并且还需要监督训练,这限制了它们对复杂的实际应用的适应。在这项工作中,我们提出了生成扩散先验(GDP),以无监督采样的方式对后验分布进行有效建模。GDP利用预训练去噪扩散生成模型(DDPM)来解决线性逆、非线性或盲问题。具体而言,GDP系统地探索了一种有条件指导的协议,该协议比常用的指导方式更实用。此外,GDP在去噪过程中有利于优化退化模型的参数,实现图像的盲恢复。原创 2023-04-19 13:31:45 · 1986 阅读 · 0 评论 -
Denoising Diffusion Probabilistic Models for Robust Image Super-Resolution in the Wild
扩散模型在单图像超分辨率和其他图像到图像的转换任务上显示出了有希望的结果。尽管取得了成功,但在更具挑战性的盲超分辨率任务中,它们的表现并没有超过最先进的GAN模型,在该任务中,输入图像分布不均,退化程度未知。本文介绍了SR3+,一种基于扩散的盲超分辨率模型,建立了一种新的超分辨率模型。为此,我们提倡将自我监督训练与复合的、参数化的退化相结合,用于自我监督训练,并在训练和测试期间增加噪声条件。有了这些创新、大规模卷积架构和大规模数据集,SR3+大大优于SR3。原创 2023-04-17 14:08:09 · 1662 阅读 · 0 评论 -
Cascaded Diffusion Models for High Fidelity Image Generation (Paper reading)
我们表明,级联扩散模型能够在类条件ImageNet生成基准上生成高保真图像,而无需任何辅助图像分类器来提高样本质量。级联扩散模型包括多个扩散模型的pipeline,这些扩散模型生成分辨率不断提高的图像,从最低分辨率的标准扩散模型开始,然后是一个或多个超分辨率扩散模型,这些超分辨率扩散模型依次对图像进行上采样并添加更高分辨率的细节。我们发现级联pipeline的样本质量主要依赖于条件增强,这是我们提出的超分辨率模型的低分辨率条件输入的数据增强方法。原创 2023-04-14 17:42:36 · 1001 阅读 · 0 评论 -
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (Paper reading)
我们提出了Imagen,一个文本到图像的扩散模型,具有前所未有的写实主义程度和深度的语言理解。Imagen建立在理解文本的大型变压器语言模型的基础上,并依赖于在高保真图像生成中扩散模型的强度。我们的关键发现是,在纯文本语料库上预训练的通用大型语言模型(例如T5)在编码用于图像合成的文本方面惊人地有效:在Imagen中增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像文本对齐。原创 2023-04-14 00:22:28 · 1482 阅读 · 0 评论 -
Waving Goodbye to Low-Res: A Diffusion-Wavelet Approach for Image Super-Resolution (Paper reading)
本文提出了一种新的扩散-小波(DiWa)方法,用于单幅图像超分辨率(SISR)。它充分利用了去噪扩散概率模型(DDPMs)和离散小波变换(DWT)的优势。通过使DDPMs在DWT域中运行,我们的DDPM模型有效地幻化出高频。我们的DDPM模型有效地幻化了小波谱上超分辨率图像的高频信息,从而在图像空间中实现了高质量和详细的重建。从数量上看,我们在PSNR、SSIM和LPIPS方面优于最先进的基于扩散的SISR方法,即SR3和SRDiff,在脸部(8倍缩放)和一般(4倍缩放)的SR基准上都是如此。原创 2023-04-12 18:32:27 · 515 阅读 · 3 评论 -
DriftRec: Adapting diffusion models to blind image restoration tasks (Paper reading)
在这项工作中,我们利用扩散模型的高保真度生成能力来解决盲图像恢复任务,以高压缩级别的JPEG伪影去除为例。我们对扩散模型的前向随机微分方程(SDE)提出了一种优雅的修改,以使其适应恢复任务,并将我们的方法命名为DriftRec。将DriftRec与具有相同网络架构的L2回归baseline(JPEG重建的最新技术)进行比较,我们表明我们的方法可以避免两个基线生成模糊图像的倾向,并且显著更忠实地恢复干净图像的分布,同时只需要干净/损坏的图像对的数据集而不需要关于降质算子的知识。原创 2023-04-10 23:43:31 · 310 阅读 · 0 评论 -
Bi-Noising Diffusion: Towards Conditional Diffusion Models with Generative Restoration Priors
条件扩散概率模型可以对自然图像的分布进行建模,并可以根据给定的条件生成不同的真实样本。然而,对于可观察到的颜色偏移和纹理,它们的结果往往是不现实的。我们认为,这个问题是由模型学习的概率分布和自然图像分布之间的差异造成的。在每个采样时间步长期间,微妙的条件逐渐扩大了发散。为了解决这个问题,我们引入了一种新的方法,该方法使用预训练的无条件扩散模型将预测样本带入训练数据流形。无条件模型充当正则化子,并减少条件模型在每个采样步骤引入的发散。原创 2023-04-04 22:21:59 · 347 阅读 · 0 评论 -
RainDiffusion:When Unsupervised Learning Meets Diffusion Models for Real-world Image Deraining
当无监督学习遇到真实世界图像去雨的扩散模型时会发生什么?为了回答这个问题,提出了RainDiffusion,这是第一个基于扩散模型的无监督图像去雨范式。除了传统的无监督的图像去噪智慧之外,RainDiffusion引入了对未配对的真实世界数据的稳定训练,而不是弱对抗性训练。RainDiffusion由两个合作分支组成:非扩散翻译分支(NTB)和扩散翻译分支。NTB利用循环一致性架构,通过生成初始干净/下雨图像对来绕过标准扩散模型的不成对训练的困难。原创 2023-04-04 18:11:39 · 2256 阅读 · 6 评论 -
DIFFUSION POSTERIOR SAMPLING FOR GENERALNOISY INVERSE PROBLEMS (Paper reading)
大多数工作都集中在在无噪声环境中解决简单的线性逆问题,这显著低估了真实世界问题的复杂性。在这项工作中,通过近似后验采样来扩展扩散求解器,有效的处理了一般的有噪声(非)线性逆问题。有趣的是,得到的后验采样方案是扩散采样与流形约束梯度的混合版本,而没有严格的测量一致性投影步骤,在有噪声环境中相比于之前的研究产生了更理想的生成路径。我们的方法展示了扩散模型可以结合各种测量噪声统计,如高斯和泊松,并且也能有效地处理有噪声非线性逆问题,如傅里叶相位恢复和非均匀去模糊。原创 2023-03-14 18:46:30 · 1009 阅读 · 0 评论 -
Score-Based Generative Modeling Through Stochastic Differential Equations (Paper reading)
Score-based Model与DDPM的联系,SDE统一扩散模型,VP与VE的联系原创 2023-03-10 14:36:45 · 2762 阅读 · 0 评论 -
Diffusion Model for Generative Image Denoising (Paper reading)
在图像去噪的监督学习中,通常是收集或合成成对的干净图像和有噪声图像来训练去噪模型。使用L2范数损失或其他距离函数作为训练的目标函数。它通常会导致图像细节较少的过度平滑结果。在本文中,我们把去噪任务看作是一个以噪声图像为条件估计干净图像的后验分布的问题。应用扩散模型的思想实现了生成图像去噪。根据去噪任务中的噪声模型,我们重新定义了与原扩散过程不同的扩散过程。因此,后验分布的采样是从有噪声的图像开始的几十步的逆向过程。我们考虑了三种类型的噪声模型,高斯噪声,伽马噪声和泊松噪声。原创 2023-03-02 19:12:06 · 835 阅读 · 0 评论 -
ShadowDiffusion: When Degradation Prior Meets Diffusion Model for Shadow Removal (Paper reading)
最近的深度学习方法在去除图像阴影方面取得了令人满意的结果。然而,由于嵌入前的退化和建模能力的不足,它们恢复的图像仍然存在不满意的边界伪影。我们的工作通过提出一个统一的扩散框架来解决这些问题,该框架集成了图像和退化先验知识,以实现高效的阴影去除。具体而言,我们首先提出了一个阴影退化模型,该模型启发我们建立了一个新的展开扩散模型,称为ShandowDiffulation。它通过在退化先验和扩散生成先验的情况下逐步细化期望输出,显著地提高了模型的阴影去除能力,本质上可以作为图像恢复的新的强基线。原创 2023-02-21 22:27:34 · 1565 阅读 · 0 评论 -
ADIR: Adaptive Diffusion for Image Reconstruction (Paper reading)
具体来说,我们使用最先进的 AVA-MUSIQ 和 KonIQ-MUSIQ 感知质量评估指标,它们是最先进的图像质量评估措施。换句话说就是对特定图像微调预训练模型的参数,使之适应特定的图像,从而有效的达到提升质量的目的。以降质图像为条件的扩散模型,测试阶段自适应增强图像细节,即测试阶段对于单幅图像寻找K-NN副相似的图像形成小数据集,用这些图像微调预训练扩散模型的参数,以达到对于这个单张图像增强细节的目的。本文的框架与GDM之间的主要区别在于,我们需要将我们的方法基于特定的退化图像。原创 2023-02-03 12:46:30 · 576 阅读 · 0 评论 -
Guided Diffusion/Diffusion Models Beat GANs on Image Synthesis (Paper reading)
对于条件图像合成,我们通过分类器指导进一步提高样本质量:一种简单、计算效率高的方法,使用分类器的梯度来权衡样本质量的多样性。我们在 ImageNet 128×128 上实现了 2.97 的 FID,在 ImageNet 256×256 上实现了 4.59,在 ImageNet 512×512 上实现了 7.72。即使每个样本只有 25 次前向传播,我们也能匹配 BigGAN-deep,同时保持更好的分布覆盖。原创 2023-01-05 20:27:51 · 2849 阅读 · 0 评论 -
Zero-Shot Image Restoration Using Denoising Diffusion Null-Space Model (Papar reading)
.原创 2023-01-02 18:37:23 · 1744 阅读 · 0 评论