SDEDIT: GUIDED IMAGE SYNTHESIS AND EDITING WITH STOCHASTIC DIFFERENTIAL EQUATIONS

  1. 问题引入
  • 解决的问题包括stroke painting to image, image composition, stroke based editing,示意图如下:在这里插入图片描述
  • 方法是首先对输入加噪,之后进行去噪,该方法可以不通过额外的训练以及新的损失函数就可以实现1)和输入的一致性以及2)高真实性两个目标;
  1. methods
    在这里插入图片描述
  • stochastic differential equations(SDEs): 对于从数据中采样得到的 x ( 0 ) ∼ p 0 = p d a t a x(0)\sim p_0=p_{data} x(0)p0=pdata,经过forward SDE加噪得到 x ( t ) , t ∈ ( 0 , 1 ] , x ( t ) = α ( t ) x ( 0 ) + σ ( t ) z , z ∼ N ( 0 , I ) x(t),t\in(0,1],x(t) = \alpha(t)x(0)+\sigma(t)z,z\sim N(0,I) x(t),t(0,1],x(t)=α(t)x(0)+σ(t)z,zN(0,I),其中 σ ( t ) : [ 0 , 1 ] → [ 0 , ∞ ) \sigma(t):[0,1]\rightarrow [0,\infty) σ(t):[0,1][0,)是一个标量方程,形容噪声的程度, α ( t ) : [ 0 , 1 ] → [ 0 , 1 ] \alpha(t):[0,1]\rightarrow[0,1] α(t):[0,1][0,1]也是一个标量方程控制原图的magnitude, x ( t ) x(t) x(t)的概率密度方程用 p t p_t pt表示;
  • 包含两种SDE,variance exploding SDE,VE-SDE( α ( t ) = 1 \alpha(t)=1 α(t)=1for all t, σ ( 1 ) \sigma(1) σ(1)是一个大的常量,此时的概率密度函数 p 1 ∼ N ( 0 , σ 2 ( 1 ) I p_1\sim N(0, \sigma^2(1)I p1N(0,σ2(1)I),另一种是variance preserving(VP) SDE( α 2 ( t ) + σ 2 ( t ) = 1 \alpha^2(t) + \sigma^2(t)=1 α2(t)+σ2(t)=1,当 t ∼ 1 t\sim 1 t1时, α ( t ) ∼ 0 , p 1 ∼ N ( 0 , I ) \alpha(t)\sim 0,p_1\sim N(0, I) α(t)0,p1N(0,I)),两种SDE都随着 t t t从0到1,逐渐将分布转化为随机的高斯噪声;
  • 在ve-sde的设定之下,image synthesis的过程可以通过reverse sde来实现,noise perturbed score function ∇ x log ⁡ p t ( x ) \nabla_x\log{p_t(x)} xlogpt(x),reverse sde d x ( t ) = [ − d [ σ 2 ( t ) ] d t ∇ x log ⁡ p t ( x ) ] d t + d [ σ 2 ( t ) ] d t d w ‾ dx(t) = \left[-\frac{d[\sigma^2(t)]}{dt}\nabla_x\log{p_t(x)}\right]dt + \sqrt{\frac{d[\sigma^2(t)]}{dt}}d\overline{w} dx(t)=[dtd[σ2(t)]xlogpt(x)]dt+dtd[σ2(t)] dw,其中 w ‾ \overline{w} w是Wiener process,起点是 x ( 1 ) ∼ p 1 = N ( 0 , σ 2 ( 1 ) I ) x(1)\sim p_1 = N(0,\sigma^2(1)I) x(1)p1=N(0,σ2(1)I),最后 x ( 0 ) x(0) x(0)满足 p d a t a p_{data} pdata的分布,noise perturbed score function ∇ x log ⁡ p t ( x ) \nabla_x\log{p_t(x)} xlogpt(x)可以通过denoising score matching来得到,目标是 L t = E x ( 0 ) ∼ p d a t a , z ∼ N ( 0 , I ) [ ∣ ∣ σ t s θ ( x ( t ) , t ) − z ∣ ∣ 2 2 ] L_t = \mathbb{E}_{x(0)\sim p_{data},z\sim N(0,I)}[||\sigma_ts_\theta(x(t),t)-z||^2_2] Lt=Ex(0)pdata,zN(0,I)[∣∣σtsθ(x(t),t)z22] s θ ( x ( t ) , t ) s_\theta(x(t),t) sθ(x(t),t)近似 ∇ x log ⁡ p t ( x ) \nabla_x\log{p_t(x)} xlogpt(x),SDE solution可以用Euler-maruyama method来近似,从 t + Δ t t+\Delta t t+Δt t t t的更新: x ( t ) = x ( t + Δ t ) + ( σ 2 ( t ) − σ 2 ( t + Δ t ) ) s θ ( x ( t ) , t ) + σ 2 ( t + Δ t ) − σ 2 ( t ) z x(t) = x(t + \Delta t) + (\sigma^2(t)-\sigma^2(t + \Delta t))s_\theta(x(t),t) + \sqrt{\sigma^2(t + \Delta t)-\sigma^2(t)}z x(t)=x(t+Δt)+(σ2(t)σ2(t+Δt))sθ(x(t),t)+σ2(t+Δt)σ2(t) z,选取一个 1 ∼ 0 1\sim 0 10的discretizationd的方法,就可以得到 x ( 0 ) x(0) x(0);在本文中 σ ( t ) = { 0 t = 0 σ m i n ( σ m a x σ m i n ) t t > 0 , σ m i n = 0.01 , σ m a x = 380 , 378 , 348 , 1348 \sigma(t)=\begin{cases} 0& t= 0\\ \sigma_{min}(\frac{\sigma_{max}}{\sigma_{min}})^t & t > 0 \end{cases},\sigma_{min} = 0.01,\sigma_{max}=380,378,348,1348 σ(t)={0σmin(σminσmax)tt=0t>0,σmin=0.01,σmax=380,378,348,1348对于不同的数据集;
  • 在vp-sde的设定之下, d x ( t ) = − 1 2 β ( t ) x ( t ) d t + β ( t ) d w ( t ) , β ( t ) = β m i n + t ( β m a x − β m i n ) , β m i n = 0.1 , β m a x = 20 dx(t) = -\frac12\beta(t)x(t)dt + \sqrt{\beta(t)}dw(t),\beta(t) = \beta_{min} + t(\beta_{max}-\beta_{min}),\beta_{min}=0.1,\beta_{max}=20 dx(t)=21β(t)x(t)dt+β(t) dw(t),β(t)=βmin+t(βmaxβmin),βmin=0.1,βmax=20,此时 x n − 1 = 1 1 − β ( t n ) Δ t ( x n + β ( t n ) Δ t s θ ( x ( t n ) , t n ) ) + β ( t n ) Δ t z n x_{n - 1} = \frac{1}{\sqrt{1 - \beta(t_n)\Delta t}}(x_n + \beta(t_n)\Delta ts_\theta(x(t_n),t_n))+\sqrt{\beta(t_n)\Delta t}z_n xn1=1β(tn)Δt 1(xn+β(tn)Δtsθ(x(tn),tn))+β(tn)Δt zn
  • 该方法在faithful和realistic之间权衡,选取的 t 0 t_0 t0越大,也就是加噪程度越大,越realistic;
  • 输入的图片 x ( g ) x^{(g)} x(g),选取 t 0 t_0 t0,对输入进行加噪得到 x ( g ) ( t 0 ) ∼ N ( x ( g ) ; σ 2 ( t 0 ) I ) x^{(g)}(t_0)\sim N(x^{(g)};\sigma^2(t_0)I) x(g)(t0)N(x(g);σ2(t0)I),之后再进行去噪的步骤得到 x ( 0 ) x(0) x(0),对应ve-sde的算法如下:
    在这里插入图片描述
    对应vp-sde的算法如下:
    在这里插入图片描述
  • 对于image composition和stroke base editing任务来说,希望未经edit的部分和原图保持一致,给出 Ω ∈ { 0 , 1 } C × H × W \Omega\in\{0,1\}^{C\times H\times W} Ω{0,1}C×H×W,1表示可编辑区域,其中可编辑区域的操作和上面一样,先加噪再去噪,未编辑区域的中间 x ( t ) x(t) x(t)使用原图加噪到指定 t t t来替换:
    在这里插入图片描述
    在这里插入图片描述
<think>好的,我需要帮助用户查找关于扩散模型(diffusion models)的学术论文。首先,我应该回忆扩散模型的基本概念和相关研究,然后确定主要的学术资源库,并可能推荐一些关键论文或作者。 扩散模型近年来在生成模型中表现突出,特别是在图像生成领域。它们通过逐步去噪的过程生成数据,类似于物理学中的扩散过程。用户可能需要了解最新的研究进展、基础理论或应用案例。 接下来,我应该考虑如何引导用户查找论文。常见的学术数据库包括arXiv、Google Scholar、PubMed、IEEE Xplore等。此外,一些特定的会议如NeurIPS、ICML、CVPR可能会有相关论文。需要建议用户使用这些平台,并提供一些搜索关键词,比如“diffusion models”、“denoising diffusion probabilistic models”等。 另外,根据用户提供的引用内容,引用[1]提到了扩散模型中的采样步骤,这可能涉及到去噪过程的具体实现。引用[3]讨论了模型对数据集的逼近,这可能与扩散模型的训练方法有关。引用[4]提到单塔模型和双塔模型,虽然主要关于链接预测,但可能与模型结构优化相关,可间接参考。 需要确保推荐的论文涵盖基础理论、优化方法和实际应用。例如,最初的DDPM(Denoising Diffusion Probabilistic Models)论文,以及后续的改进如DDIM(Denoisson Diffusion Implicit Models)。此外,应用在文本生成、多模态任务中的扩散模型论文也可能有用。 还要提醒用户注意论文的发表时间,优先选择近年来的高引用文章,并查看相关研究小组的工作,如Jonathan Ho、Yang Song等作者的研究。 最后,可能需要指导用户如何使用学术搜索引擎的高级功能,比如按时间排序、筛选会议/期刊,以及如何跟踪后续研究(通过查看引用该论文的其他文献)。</think>关于扩散模型(Diffusion Models)的学术论文,您可以通过以下途径和关键词进行查找: --- ### **1. 核心学术数据库推荐** - **arXiv**:预印本平台,收录计算机科学领域最新论文,搜索关键词: `"diffusion models"`、`"denoising diffusion probabilistic models"`、`"score-based generative models"` 示例论文: - *《Denoising Diffusion Probabilistic Models》*(DDPM,基础理论框架)[^1] - *《Diffusion Models Beat GANs on Image Synthesis》*(性能优化的里程碑研究) - *《Classifier-Free Diffusion Guidance》*(改进生成控制的方法) - **Google Scholar**: 搜索组合词:`diffusion models + [具体方向]`(如`text-to-image`、`medical imaging`、`video generation`) 高被引作者:Jonathan Ho、Yang Song、Jascha Sohl-Dickstein等。 - **顶会/期刊**: - **NeurIPS/ICML/CVPR**:关注生成模型、计算机视觉方向的session。 - **IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)**:常有理论深入分析。 --- ### **2. 关键研究方向与论文示例** - **基础理论**: - *《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》*(扩散模型的早期奠基工作) - *《Score-Based Generative Modeling through Stochastic Differential Equations》*(SDE视角的统一框架)[^1] - **加速采样**: - *《Denoising Diffusion Implicit Models》*(DDIM,减少采样步骤的经典方法) - *《Progressive Distillation for Fast Sampling of Diffusion Models》*(通过蒸馏优化速度) - **多模态与跨领域应用**: - *《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models》*(文本到图像生成)[^2] - *《Diffusion Models for Medical Image Analysis》*(医学图像分析综述) --- ### **3. 检索技巧** 1. **追踪引用文献**:在Google Scholar中打开一篇经典论文(如DDPM),点击“被引用次数”查看后续研究。 2. **过滤时间范围**:选择近3年的论文以获取最新进展。 3. **结合代码库**:许多论文在GitHub开源代码(搜索`GitHub + diffusion models`),可实践辅助理解。 --- ### **4. 开源工具与库** - **Hugging Face Diffusers**:提供Diffusion模型的预训练实现和教程。 - **Stable Diffusion**:热门文本到图像模型,相关论文可参考其技术报告。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值