Diffusion Models Beat GANs on Image Synthesis 论文笔记

最新推荐文章于 2025-04-18 20:48:21 发布

Unsunshine_Bigboy_?

最新推荐文章于 2025-04-18 20:48:21 发布

阅读量1.3k

点赞数

文章标签：论文阅读人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_46872424/article/details/129277427

版权

前言

生成模型主要分为两类方法，一种是基于GAN模型的生成方法，另外一种是基于对数似然模型，例如VAE、DDPM等。GAN方法在FID、Inception Score（IS）、Precision等指标上取得不错的效果，但是在生成图片的多样性上有所欠缺，而基于对数似然的方法在多样性上效果更好。另外，GAN的缺点很明显，训练困难；而对数似然模型的缺点就是生成速度慢，并且在生成质量上不如GAN。于是，论文提出生产样本的多样性和质量是一个值得权衡的问题。所以，论文希望改善DDPM这种基于对数似然的生成方法，通过分类器引导来减少样本多样性而改善生成图像的质量，使得其在FID等指标上达到GAN的效果。

创新点有三个：①通过消融实验改进了DDPM的模型结构；②提出了一种分类器引导的方法来改善扩散模型的生成质量；③发现可以调整单个超参数，即分类器梯度的比例，以牺牲多样性来换取保真度。

以往DDPM改进方法

论文先介绍了之前的improve DDPM和DDIM工作，是在这个之上进行改进的。对于improved DDPM，主要是提出了可学习的方差和新的混合损失函数，作者也同意这个改进是有效的。至于DDIM，作者认为只有当使用少于50个采样步骤才是有效的。

其次，论文用Precision和IS作为衡量保真度的指标，用Recall去衡量多样性。

Architecture Improvements

主要做了如下改动：

①增加模型的深度和宽度，使得模型大小保持相对恒定。

②增加了注意力机制的heads

③使用32×32、16×16和8×8的分辨率进行注意力计算

④使用BigGAN的残差模块进行上采样和下采样

最低0.47元/天解锁文章

Unsunshine_Bigboy_?

博客等级

码龄5年

27
原创

140
点赞

355
收藏

76
粉丝

关注

私信

热门文章

上一篇：: Improved Denoising Diffusion Probabilistic Models 论文阅读

下一篇：: Datawhale AI夏令营-大模型技术实践：基于基于星火大模型的群聊对话分角色要素提取个人笔记

最新评论

SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 论文笔记
汗流浃背了吧，老弟！: 作者弄好，我想问下，这篇论文再进行DIV2k通用数据集时，是怎么进行测试的
SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 论文笔记
spring_python: test的时候设置使用第几轮的训练数据了吗
SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 论文笔记
开心崽: 作者您好，我复现这篇论文的时候出现了两个问题。1、按照readme把环境配置好之后，训练出来的psnr指标为200多，能指点一下哪里出了问题吗？2、给出的预训练模型srdiff_pretrained_celebA/model_ckpt_steps_300000.ckpt没用上，之后自己加进去的，不过对实验结果没什么影响。
SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 论文笔记
开心崽: 可以请问一下，readme里面的预训练模型srdiff_pretrained_celebA/model_ckpt_steps_300000.ckpt，在哪个地方配置吗？我发现我跑出来是从第0步开始的，没有在这个预训练模型上微调，导致最后的psnr等指标结果很奇怪
BevformerV2论文阅读笔记
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。