【论文阅读笔记】DDPM: Denoising Diffusion Probabilistic Models

最新推荐文章于 2025-06-14 10:33:25 发布

Abstraction.

最新推荐文章于 2025-06-14 10:33:25 发布

阅读量1.1k

点赞数 24

文章标签：论文阅读笔记

本文链接：https://blog.youkuaiyun.com/weixin_62636846/article/details/143377472

版权

前排提示：本片笔记纯属自己写给自己看，里面有不少自己的理解和引用，如有侵权请删除联系

基本思路：对一张已有的图片先进行前向加噪，通过概率论数学推导发现反向生成需要预测噪声，所以让一个神经网络去学习这个加噪过程的规律，之后取一个随机噪音，结合这个网络进行逐步去噪完成反向生成

题外话：怎么生成服从高斯分布的数据（Box-Muller变换）
设 $U_1,U_2$ 相互独立且服从均匀分布 $U (0, 1)$ ，令 $R=\sqrt{-2logU_1},\theta=2\pi U_2$ ,则 $X=Rcos\theta, Y=Rsin\theta$ 服从标准正态分布且相互独立

1.前向扩散 $Q(x_t|x_{t-1})$

以下推导和神经网络无关，只是加噪过程的概率描述
在这里插入图片描述
前向扩散（逐渐加噪，代码中为1000次），越往后增加的噪音越强（β接近1）

$x_t=\sqrt{1-\beta_t}x_{t-1} + \sqrt{\beta_t} \varepsilon_{t-1}$

等价于 $q(x_{t}|x_{t-1})=N(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_tI)$

实际上可以直接一步到位，也就是 $x_t$ 可以根据 $x_0,t$ 直接推导出来

根据高斯分布叠加性 $aX+bY∼N(aμ_1+bμ_2,a^2σ_1^2+b_2σ^2_2)$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Abstraction.

关注关注

24
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Diffusion】Denoising Diffusion Probabilistic Models (DDPM)小白入门指南

图挖掘领域，新晋砖家 ☞ 未来可期，欢迎和静静一起学习交流吖

01-08

785

DiffusionModel的基本概念影像生成系统的应用DALL-EImagenDiffusionModel的运作原理生成图片的步骤从高斯分布中采样噪声向量使用Denoise模块逐步去噪从噪声到清晰图片的过程类比米开朗基罗的雕像创作Denoise模型的详细说明反复使用同一个Denoise模型额外输入噪声严重程度数值Denoise模型的内部结构NoisePredictor的作用预测并减去噪声NoisePredictor的训练方法人为创造训练数据。

论文阅读 | RePaint: Inpainting using Denoising Diffusion Probabilistic Models

Pencilhj的博客

12-10

2329

RePaint：使用训练好的扩散模型，在去噪过程中加入mask和resample策略，适配inpainting任务。

参与评论您还未登录，请先登录后发表或查看评论

【论文阅读】 Denoising Diffusion Probabilistic Models ( DDPM ）

weixin_51330846的博客

09-30

1296

看上图右边的式子，下标代表参数通过神经网络学习我们已经有了，对于方差设置为了，在实验中，得到的结果都是相似的。在前向过程参数的选择中，我们知道其实设定成了不拿来给神经网络学习的常数，所以该方差事实上也是常数。

[论文解析] Denoising Diffusion Probabilistic Models

Joselynzhao

12-10

1273

扩散概率模型(为方便起见，我们将其称为“扩散模型”)是一种参数化的马尔可夫链，使用变分推理训练产生有限时间后与数据匹配的样本。学习该链的跃迁来逆转扩散过程，这是一个马尔可夫链，逐步向采样的相反方向的数据添加噪声，直到信号被破坏。当扩散由少量高斯噪声组成时，将采样链跃迁设置为条件高斯也就足够了，允许特别简单的神经网络参数化。

Re4读论文 Denoising Diffusion Probabilistic Models

weixin_44796129的博客

11-03

130

Denoising Diffusion Probabilistic Models NeurlPS2020

【论文阅读】Improved Denoising Diffusion Probabilistic Models

kanon的博客

03-13

3436

去噪扩散概率模型（DDPM）是一类生成模型，最近已被证明可以产生出色的样本。实验表明，通过一些简单的修改，DDPM还可以在保持高样品质量的同时实现竞争性的对数似然。为了更紧密地优化变分下界（VLB），我们使用简单的重新参数化和混合学习目标来学习逆向过程方差，该目标将 VLB 与 Ho 等人[1]的简化目标相结合，允许采样前向传递减少一个数量级，样本质量差异可以忽略不计，这对于这些模型的实际部署非常重要。

Denoising Diffusion Probabilistic Models (DDPM)

MTandHJ的博客

12-16

4288

文章目录概主要内容Diffusion modelsreverse processforward process变分界损失求解LtL_{t}LtL0L_0L0最后的算法参数代码 Ho J., Jain A. and Abbeel P. Denoising diffusion probabilistic models. In Advances in Neural Information Processing Systems (NIPS), 2020. [Page E. Approximating to

Improved Denoising Diffusion Probabilistic Models.pdf

05-18

Improved Denoising Diffusion Probabilistic Models（DDPM）是一类生成模型，它最近被证明可以生成高质量的样本。 DDPMs 通过学习反向扩散过程的方差，可以以几乎相同的样本质量实现多个数量级的前向传递减少，这对...

[论文精读]Denoising Diffusion Probabilistic Models

m0_52911108的博客

09-22

1491

DDPM模型通过马尔可夫链反向去噪过程实现了高质量的图像生成，并在生成任务中展示了优异的性能。

【论文精读】DDPM：Denoising Diffusion Probabilistic Models 去噪扩散概率模型

weixin_47748259的博客

03-16

9498

变分自动编码器（VAE）结合了自动编码器和变分推断的思想。它主要包括编码器和解码器两个部分。VAE能够学习数据的潜在表示，并生成具有相似分布的新样本。在训练过程中，VAE的目标是最大化数据的边际似然，同时使潜在表示与先验分布（通常是高斯分布）的KL散度最小化。生成对抗网络（GAN）：由生成器和判别器组成。在训练过程中，生成器和判别器相互对抗、相互提升，最终使得生成器能够生成逼真的数据，判别器则很难区分真假数据。流模型（Flow-based Models）是一类生成模型，旨在学习数据的概率分布以

Denoising Diffusion Probabilistic Model，DDPM阅读笔记——（一）

qq_52302919的博客

04-13

855

人工智能生成内容（AI Generated Content，AIGC）近年来成为了非常前沿的一个研究方向，生成模型目前有四个分支，分别是生成对抗网络（Generative Adversarial Models，GAN），变分自编码器（Variance Auto-Encoder，VAE），标准化流模型（Normalization Flow， NF）以及这里要介绍的扩散模型（Diffusion Models，DM）。

DDPM 论文总结 Denoising Diffusion Probabilistic Models

samoyan的博客,记录技术成长~

02-23

2067

这些论文为深度学习领域的生成模型研究提供了新的视角和方法，尤其在高质量图像合成方面展示出了强大的能力。DDPM的研究不仅推动了生成模型的发展，也为后续的研究者提供了丰富的启发和可能的改进方向。1. 预测噪声而非像素转换。2. 仅预测正态分布的均值。

小白读论文——Denoising Diffusion Probabilistic Model 以及代码理解

weixin_74479558的博客

08-22

1250

下一时刻的图像是由上一时刻的图像加上噪音得到的xtβt×ϵt1−βt×xt−1xtβt×ϵt1−βt×xt−1xtx_txtttt时刻的图像ϵt\epsilon_tϵtttt时刻随机生成的噪声图像βt\beta_tβt:是提前准备好的常数，不同时刻的值不同，随着ttt的增大而增大，因此表明越到后面，加的噪音越多。

生成网络论文阅读：DDPM(一)：Denoising Diffusion Probabilistic Models论文概述

qq_43210957的博客

09-26

7439

Diffusion模型简单介绍

高斯扩散模型_基于扩散概率模型 (Diffusion Probabilistic Model ) 的音频生成模型

weixin_39583013的博客

11-24

3994

近两年音频生成是一个非常火热的研究课题，其目的主要在于如何将低维度、低帧率的输入特征转换成高采样率的语音信号。针对该任务，现有的技术，比如自回归网络和GAN，都处于瓶颈阶段，无法同时满足高音质和高实时率的要求。扩散概率模型的提出，为该问题提出了新的解决方向。简述在条件音频生成任务中，比如神经声码器 (neural vocoder)，端到端TTS，其大体框架都是将同样长度的高斯噪声通过一个生成模型映...

论文笔记 - 《Implementing block-sparse matrix multiplication kernels using Triton》

Lisen’s blog

06-11

884

本文提出利用Triton DSL重构MegaBlocks系统中块稀疏矩阵乘法内核的方法，解决了原有CUDA实现存在的通用性不足和维护困难问题。研究者通过设计混合CSR-COO稀疏格式存储方案，结合Triton的高层抽象编程模型，实现了与手工优化CUDA内核相当的运算性能（吞吐量0.96-1.1倍），同时代码量减少10倍至298行。该方法突破了原始实现固定128x128块大小和fp16数据类型的限制，支持多种硬件架构和参数配置，为混合专家模型的研究和部署提供了更灵活高效的实现方案。实验表明，Triton在保持

【论文阅读】Qwen2.5-VL Technical Report

最新发布

让算法融入生活，改变生活！

06-14

630

本文提出了一种名为Qwen2.5-VL的视觉语言模型系列，该模型在多模态理解和交互方面取得了显著进展。其增强的视觉识别能力、对象定位能力、文档解析能力和长视频理解能力使其在静态和动态任务中表现出色。此外，它具有原生的动态分辨率处理和绝对时间编码功能，可以高效地处理各种输入，并通过减少计算开销而不牺牲分辨率精度来降低计算负担。Qwen2.5-VL适用于从边缘AI到高性能计算的各种应用。

LDStega论文阅读笔记

写代码的小阿帆的博客

06-11

1210

现有的生成图像隐写方法在可控性、可用性和稳健性方面仍面临挑战，因此难以应用真实场景，所以作者设计了一种基于潜在扩散模型的实用且强大的生成图像隐写术，称为 LDStega。LDStega以可控条件文本作为输入，并在潜在扩散模型的相反过程中设计了一种编码策略，将潜在空间生成与数据隐藏耦合。编码策略从由秘密数据引导的截断高斯分布的候选池中选择一个截断区间，以生成 stego 潜在空间。随后，将隐写潜在空间输入解码器以生成隐写图像。相反的过程中，接收器从有损重构潜在空间的全局高斯分布中提取秘密数据。

【论文阅读】多任务学习起源类论文《Multi-Task Feature Learning》

qq_38142901的博客

06-10

1260

该论文提出了一种通过**低纬度表征多任务共性**的方法.通过建立一个1维范式问题将多任务共同学习特征数进行正则化.这个问题等价于一个凸优化问题,用迭代算法进行求解.整个算法可以理解为**非监督模块与监督模块,前者学习多任务的共同表征,后者使用该表征学习每个任务的目标.**

RePaint_Inpainting_using_Denoising_Diffusion_Probabilistic_Models复现

04-01

### 基于Denoising Diffusion Probabilistic Models (DDPM) 的RePaint Inpainting 技术复现 #### 方法概述 RePaint 是一种基于去噪扩散概率模型（DDPM）的图像修复技术，其核心思想是通过条件化的扩散过程来生成缺失区域的内容。该方法利用已知区域的信息作为条件输入，并通过对噪声逐步去除的方式恢复完整的图像[^2]。为了实现 RePaint Inpainting 技术的复现，可以按照以下思路构建： --- #### 数据准备在训练过程中，需要准备好带有随机遮罩的图像数据集。这些遮罩可以采用多种形式，例如矩形、自由绘制的笔刷形状或其他复杂模式。具体来说： - 使用公开的数据集（如 CelebA 或 ImageNet），并为其添加人工合成的遮罩。 - 遮罩的设计应多样化，以便模型能够适应不同的场景和复杂的遮挡情况[^3]。 --- #### 扩散模型架构扩散模型的核心在于定义前向扩散过程和反向生成过程。以下是具体的实现细节： 1. **前向扩散过程** 定义一个逐渐增加噪声的过程 $ q(x_t|x_0) $，其中 $ t $ 表示时间步长。此过程可以通过高斯噪声逐层叠加完成： \[ q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1},\beta_t I) \] 这里的参数 $ \beta_t $ 控制每一步加入的噪声量[^1]。 2. **反向生成过程** 反向生成的目标是从纯噪声中重建原始图像。这一过程由神经网络学习得到，通常表示为： \[ p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t,t), \sigma_t^2I) \] 其中，$ \mu_\theta(x_t,t) $ 是通过 U-Net 结构预测的均值函数。 --- #### 条件化策略为了让扩散模型专注于修复被遮盖的部分，需引入条件化机制。具体做法如下： - 将遮罩后的图像 $ x_m $ 和对应的二值遮罩矩阵 $ m $ 输入到模型中。 - 修改损失函数以仅关注未知区域的像素误差。即，在计算重构误差时忽略已知区域的影响： \[ L(\theta) = \sum_{i=1}^{T}\|m_i \odot (\hat{x}_i - x_i)\|^2 \] 此处 $ m_i $ 表示第 $ i $-th 时间步上的遮罩矩阵。 --- #### 训练与推理流程 1. **训练阶段** - 构造带遮罩的图像对 $ (x_m, m) $ 并将其送入 DDPM 中进行端到端优化。 - 调整超参数（如噪声调度表 $ \beta_t $）、批次大小以及总迭代次数以获得最佳性能。 2. **推理阶段** 给定一张含有缺失区域的新图像及其对应遮罩，执行以下操作： - 初始化全白噪声图作为起始状态； - 按照预训练好的逆采样路径逐步减少噪声直至最终输出清晰的结果。 ```python import torch from torchvision import transforms from diffusers.models.unet_2d_condition import UNet2DConditionModel def inpaint_with_repaint(image_tensor, mask_tensor, model_path): """ Perform inpainting using Repaint method. Args: image_tensor (torch.Tensor): Input masked image tensor of shape [C,H,W]. mask_tensor (torch.Tensor): Binary mask tensor indicating missing regions. model_path (str): Path to pre-trained diffusion model checkpoint. Returns: torch.Tensor: Restored full-image tensor. """ device = 'cuda' if torch.cuda.is_available() else 'cpu' # Load pretrained denoising diffusion probabilistic model unet_model = UNet2DConditionModel.from_pretrained(model_path).to(device) # Define noise scheduler and other hyperparameters here... beta_schedule = ... # Example: linear or cosine schedule noisy_image = add_noise_to_image(image_tensor.clone(), beta_schedule[-1]) * (1-mask_tensor) + image_tensor*mask_tensor restored_image = reverse_diffusion_process(noisy_image=noisy_image, condition=image_tensor, mask=mask_tensor, steps=len(beta_schedule), model=unet_model) return restored_image.clamp(0., 1.) # Helper functions omitted for brevity but should include `add_noise_to_image` & `reverse_diffusion_process`. ``` 上述代码片段展示了一个简化版本的 RePaint 推理逻辑框架，实际应用还需补充更多细节配置。 --- #### 性能评估指标针对生成质量可选用 SSIM、PSNR 等传统度量标准外加感知相似性得分 FID(Fréchet Inception Distance)。 ---

【论文阅读笔记】DDPM: Denoising Diffusion Probabilistic Models

1.前向扩散 Q ( x t ∣ x t − 1 ) Q(x_t|x_{t-1}) Q(xt​∣xt−1​)

1.前向扩散 $Q(x_t|x_{t-1})$