
机器学习 计算机视觉
文章平均质量分 82
海柱12
这个作者很懒,什么都没留下…
展开
-
Structure and Content-Guided Video Synthesis with Diffusion Models(基于扩散模型的结构与内容引导视频合成)
基于扩散模型的结构与内容引导视频合成原创 2025-03-14 18:32:58 · 1016 阅读 · 0 评论 -
Generative Image Dynamics(动态图像生成)
论文提出了一种建立图像空间运动先验的方法。其核心思想是从真实视频中提取运动轨迹,并在傅里叶域中对这种长期、密集的运动进行建模,形成一种称为“光谱体(spectral volume)”的表示。给定一幅静态RGB图像,模型通过频率协调的扩散采样过程预测出光谱体,然后将其转换为运动纹理,进而生成一段平滑、循环的动画视频或实现交互式的动态模拟。该方法能够捕捉自然界中树木、花朵、蜡烛等物体在风中摇曳的振荡动态,并在图像动画和视频合成上展现出优异的效果。原创 2025-03-13 17:17:52 · 698 阅读 · 0 评论 -
DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors(利用视频扩散先验对开放领域图像进行动画化)
利用视频扩散先验对开放领域图像进行动画化原创 2025-03-10 20:56:18 · 1058 阅读 · 0 评论 -
Python 代码,利用DeepLabV3深度学习的语义分割模型生成分割掩码,其中狗的部分为白色,其他部分为黑色。
Python 代码,利用DeepLabV3深度学习的语义分割模型生成分割掩码原创 2025-01-13 23:49:55 · 305 阅读 · 0 评论 -
Scaling In-the-Wild Training for Diffusion-Based Illumination Harmonization
通过施加一致的光传输,为基于扩散的光照协调和编辑进行广泛扩展训练原创 2024-12-02 23:25:40 · 753 阅读 · 0 评论 -
python 字符串 列表list[::-1]的5种用法
python 字符串 列表list[::-1]的5种用法转载 2022-12-09 16:15:13 · 6967 阅读 · 1 评论 -
VQGAN-CLIP: Open Domain Image Generationand Editing with Natural Language Guidance
从开放域文本提示生成和编辑图像是一项具有挑战性的任务,迄今为止,它需要昂贵且经过专门训练的模型。我们为这两个任务演示了一种新颖的方法,该方法能够通过使用多模态编码器来指导图像生成,而无需任何训练就可以从具有显着语义复杂性的文本提示中产生高视觉质量的图像。我们在各种任务上演示了如何使用CLIP 来指导VQGAN产生比以前更高的视觉质量输出,尽管没有为提出的任务进行培训。原创 2022-11-28 16:01:08 · 1669 阅读 · 0 评论 -
DIFFUSIONCLIP: TEXT-GUIDED IMAGE MANIPULATION USING DIFFUSION MODELS
扩散模型是最近的生成模型,在具有最新性能的图像生成中显示出巨大的成功。然而,对于使用扩散模型进行图像处理的研究很少。在这里,我们提出了一种新颖的DiffusionCLIP,它使用对比语言-图像预训练 (CLIP) 丢失,使用扩散模型执行文本驱动的图像处理。对于域内外图像处理任务,我们的方法具有与现代基于GAN的图像处理方法相当的性能,即使没有额外的编码器或优化,也具有几乎完美的反演优势。此外,我们的方法可以轻松地用于各种新颖的应用程序,从而可以将图像从看不见的域转换为另一个看不见的域,或者在看不见的域中生成原创 2022-11-27 15:28:06 · 1337 阅读 · 1 评论 -
StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
是否可以训练生成模型从特定领域生成图像,仅由文本提示引导,而看不到任何图像?换句话说:可以“盲目地”训练图像生成器吗?利用大规模对比语言图像预训练 (CLIP) 模型的语义能力,我们提出了一种文本驱动方法,允许将生成模型转移到新领域,而无需收集甚至单个图像。我们表明,通过自然语言提示和几分钟的训练,我们的方法可以使生成器适应以不同样式和形状为特征的多个领域。值得注意的是,其中许多修改将很难或完全不可能通过现有方法实现原创 2022-11-26 15:45:39 · 1457 阅读 · 0 评论 -
CLIPstyler: Image Style Transfer with a Single Text Condition(2022 CVPR)(单文本风格转换)
现有的神经样式转换方法需要参考样式图像来将样式图像的纹理信息转换到内容图像。但是,在许多实际情况下,用户可能没有参考样式图像,但仍然对仅通过想象样式来转移样式感兴趣。为了处理此类应用程序,我们提出了一个新的框架,该框架可以 “不带” 样式图像进行样式传输,但只能使用所需样式的文本描述。使用剪辑的预训练文本图像嵌入模型,我们演示了仅在单个文本条件下对内容图像样式的调制。具体来说,我们提出了一种具有多视图增强功能的补丁式文本图像匹配损失,以实现逼真的纹理传输原创 2022-11-24 12:15:21 · 1416 阅读 · 0 评论 -
SemanticStyleGAN: Learning Compositional Generative Priorsfor Controllable Image Synthesis and Edit
最近的研究表明,StyleGANs为图像合成和编辑的下游任务提供了有希望的先验模型。但是,由于stylegans的潜在代码旨在控制全局样式,因此很难实现对合成图像的细粒度控制。我们介绍了SemanticStyleGAN,其中对生成器进行了训练,以分别对局部语义部分进行建模,并以合成方式合成图像。不同局部部分的结构和纹理由相应的潜码控制。实验结果表明,我们的模型在不同空间区域之间提供了强大的解纠缠。当与为StyleGANs设计的编辑方法结合使用时,它可以实现更细粒度的控制来编辑合成或真实图像原创 2022-11-21 19:52:51 · 805 阅读 · 0 评论 -
EdiBERT, a generative model for image editing(一种用于图像编辑的生成模型)
计算机视觉的进步正在推动图像处理的极限,生成模型在各种任务中对详细图像进行采样。然而,通常针对每个特定任务开发和训练专门的模型,即使许多图像编辑任务有相似之处。在去噪、修复或图像合成中,人们总是旨在从低质量图像生成逼真的图像。在本文中,我们的目标是朝着统一的图像编辑方法迈出一步。为此,我们提出了 EdiBERT,这是一种在由矢量量化自动编码器构建的离散潜在空间中训练的双向变换器。我们认为这种双向模型适用于图像处理,因为任何补丁都可以有条件地重新采样到整个图像。使用这个独特而直接的训练目标。原创 2022-11-20 14:07:20 · 603 阅读 · 0 评论