
扩散模型论文精读
文章平均质量分 96
扩散模型领域及方向的论文精读,包括论文各部分理解、复现以及总结延申。论文包括涉及扩散模型的多个领域,如图像生成、图像去噪、图像修复等。从原理解读、算法推导,再到源码复现,带领你深入理解图像拼接在现有技术基础之上的最新研究成果。带你看论文!了解原理!
十小大
985高校老师,博客之星2024Top65,研究方向为底层计算机视觉(超分、去噪等),图像拼接。偶尔也会做一些小项目,比如软件开发、网站建设等。
展开
-
【扩散模型】论文精读:Scalable Diffusion Models with Transformers(DiT)
论文题目:Scalable Diffusion Models with Transformers —— VLOGGER:具身化身合成的多模态扩散纯Transformer的扩散模型!研究扩散模型必读文章!我们基于变压器架构探索了一类新的扩散模型。我们训练图像的潜在扩散模型,用对潜在补丁进行操作的转换器替换常用的 U-Net 主干。我们通过 Gflops 测量的前向传递复杂度透镜来分析我们的扩散变换器 (DiTs) 的可扩展性。原创 2024-05-21 11:00:19 · 1089 阅读 · 0 评论 -
【扩散模型】论文精读:VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis
我们提出了 VLOGGER,这是一种从一个人的单个输入图像生成音频驱动的人类视频的方法,它建立在最近生成扩散模型的成功之上。我们的方法包括 1) 随机人到 3d 运动扩散模型,以及 2) 一种新颖的基于扩散的架构,该架构通过空间和时间控制来增强文本到图像模型。这支持生成可变长度的高质量视频,通过人脸和身体的高级表示轻松控制。与之前的工作相比,我们的方法不需要对每个人进行训练,不依赖于人脸检测和裁剪,生成完整的图像(而不仅仅是人脸或嘴唇),并考虑广泛的场景(例如可见的躯干或不同的主题身份),这对于正确合成交流原创 2024-04-08 15:01:59 · 4493 阅读 · 0 评论 -
【图像超分/扩散模型】论文精读:Exploiting Diffusion Prior for Real-World Image Super-Resolution(StableSR)
我们提出了一种新的方法来利用封装在预先训练的文本到图像扩散模型中的先验知识进行盲超分辨率(SR)。具体来说,通过使用我们的时间感知编码器,我们可以在不改变预训练的合成模型的情况下实现有希望的恢复结果,从而保留生成先验并最小化训练成本。为了解决扩散模型固有随机性造成的保真度损失,我们采用了一个可控的特征包装模块,该模块允许用户在推理过程中简单地调整标量值来平衡质量和保真度。此外,我们开发了一种渐进聚合采样策略来克服预训练扩散模型的固定大小约束,从而能够适应任何大小的分辨率。原创 2024-03-26 07:28:11 · 8700 阅读 · 1 评论 -
【扩散模型】论文精读:Denoising Diffusion Probabilistic Models(DDPM)
我们使用扩散概率模型展示了高质量的图像合成结果,这是一种受非平衡热力学考虑启发的潜在变量模型。我们最好的结果是通过对加权变分界进行训练获得的,该边界是根据扩散概率模型和与朗之万动力学的去噪分数匹配之间的新联系设计的,我们的模型自然承认渐进式有损解压缩方案,可以解释为自回归解码的泛化。在无条件 CIFAR10 数据集上,我们获得了 9.46 的 Inception 分数和 3.17 的最新 FID 分数。在 256x256 LSUN 上,我们获得了类似于 ProgressiveGAN 的样本质量。原创 2024-03-26 07:27:04 · 8682 阅读 · 0 评论 -
【图像拼接】论文精读:PERF: Panoramic Neural Radiance Field from a Single Panorama
给定多视图图像,神经辐射场 (NeRF) 在新视图合成方面取得了实质性进展。最近,一些工作试图从具有 3D 先验的单幅图像中训练 NeRF。他们主要关注一些遮挡的有限视场,这极大地限制了它们对具有大尺寸遮挡的真实360度全景场景的可扩展性。在本文中,我们提出了PERF,这是一个360度新颖的视图合成框架,从单个全景图训练全景神经辐射场。值得注意的是,PERF 允许在复杂场景中进行 3D 漫游,而无需昂贵和繁琐的图像采集。为了实现这一目标,我们提出了一种新的协作RGBD修复方法和渐进式修复擦除方法,将360度原创 2024-02-05 11:05:36 · 13450 阅读 · 0 评论 -
【扩散模型/图像匹配/图像拼接】论文精读:DiffMatch: Diffusion Model for Dense Matching
建立成对图像之间的密集对应关系的目标由两个术语组成:数据项和先验项。虽然传统的技术侧重于定义难以表述的手工设计的先验项,但最近的方法侧重于使用深度神经网络学习数据项,而无需显式建模先验,假设模型本身有能力从大规模数据集中学习最优先验。然而,性能改进很明显,它们通常无法解决匹配的固有歧义,例如无纹理区域、重复模式和大位移。为了解决这个问题,我们提出了 DiffMatch,这是一个新颖的基于条件扩散的框架,旨在显式建模数据和先验术语。与以前的方法不同,这是通过利用条件去噪扩散模型来实现的。DiffMatch由两原创 2024-01-30 09:08:41 · 16262 阅读 · 0 评论 -
【图像去噪/扩散模型】Deconstructing Denoising Diffusion Models for Self-Supervised Learning(l-DAE)
在这项研究中,我们研究了最初用于图像生成的去噪扩散模型 (DDM) 的表示学习能力。我们的理念是解构 DDM,逐渐将其转换为经典的去噪自动编码器 (DAE)。这种解构过程使我们能够探索现代 DDM 的各种组件如何影响自监督表示学习。我们观察到,只有少数现代组件对于学习好的表示至关重要,而其他许多组件并不重要。我们的研究最终得出了一种高度简化的方法,在很大程度上类似于经典的DAE。我们希望我们的研究在现代自我监督学习领域重新点燃了一系列经典方法的兴趣。原创 2024-01-29 11:58:50 · 19372 阅读 · 1 评论