
Diffusion
文章平均质量分 92
_Summer tree
这个作者很懒,什么都没留下…
展开
-
基于diffusers的text-to-image系列generation复现体验
分两类来说,第一种是不需要token就行下载的。第二种是需要token才能下载的。根据huggingface网站中的模型名称(model_id)即可下载模型。对于需要token才能下载的,需要先登录一下huggingface_cli。安装diffusers github repo的提示,逐步配置环境。个人感觉这种下载后目录结构比较乱,就没有采用这种方式。复现第一步,配置环境。输入你的授权token即可。自动下载,下载模型默认存储在。下载需要token的模型了。是指定下载的目的路径。原创 2025-01-25 11:27:24 · 220 阅读 · 0 评论 -
【Stable Diffusion XL】huggingface diffusers 官方教程解读
为了方便,DiffusionPipeline将这些组件捆绑在一起,你也可以解绑pipeline,分别使用模型和调度程序来创建新的扩散系统。在本教程中,您将学习如何使用模型和调度器来组装用于推理的扩散系统,从基本pipeline开始,然后进展到Stable Diffusion pipeline.本教程向您展示如何使用autoppipeline在给定预训练权值的情况下,自动推断要为特定任务加载的管道类。到目前为止,您已经拥有了开始训练模型的大部分部分,剩下的就是将所有内容组合在一起。原创 2023-09-09 18:18:10 · 2907 阅读 · 0 评论 -
Stable Diffusion with Diffusers 学习笔记: 原理+完整pipeline代码
这是standard diffusion和Latent diffusion模型之间的关键区别:在Latent diffusion中,模型被训练成生成图像的latent(压缩)表示。编码器将图像表示压缩为较低分辨率的图像表示,解码器将较低分辨率的图像表示解码回假定噪声较小的原始较高分辨率的图像表示。在这篇文章中,我们想展示如何使用Stable Diffusion with the 🧨 Diffusers library,,解释模型是如何工作的,最后深入探讨扩散器是如何允许自定义图像生成pipeline的。原创 2023-09-08 17:32:03 · 6856 阅读 · 0 评论 -
Magic3D: High-Resolution Text-to-3D Content Creation(高分辨率文本到3d内容创建)
在第一阶段,我们使用eDiff-I[2]中描述的基础扩散模型,它类似于DreamFusion中使用的Imagen[38]的基础扩散模型。具体来说,我们使用来自即时NGP[27]的基于密度的体素修剪方法,以及基于八叉树的射线采样和渲染算法[46]。我们的方法被称为Magic3D,可以在40分钟内创建高质量的3D网格模型,这比DreamFusion快2倍(据报道平均需要1.5小时),同时也实现了更高的分辨率。Magic3D是一个两阶段的从粗到精的框架,使用高效的场景模型,实现高分辨率的文本到3d合成(图2)。原创 2023-07-13 08:58:19 · 1547 阅读 · 1 评论 -
Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑)
最后,我们继承了体积表示的局限性。请注意,与最近的神经 3D 场景表示(包括 ReLU Fields)相比,我们没有对视图相关的外观效应进行建模,因为我们发现当以 2D 基于扩散的模型引导时,它会导致不希望的伪影。在上一节中描述的初始体素网格 Gi的基础上,我们通过优化 Ge 来执行文本引导的对象编辑,Ge 是一个网格,表示从 Gi 初始化的编辑对象。我们引入了一种新的体积正则化损失,直接在3D空间中操作,利用我们的3D表示的显式性质来加强原始和编辑对象的全局结构之间的相关性。原创 2023-07-01 09:27:31 · 884 阅读 · 0 评论 -
[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成
Fig 1. 原始图像(上)和离散VAE重建图像(下)的比较。编码器对空间分辨率进行8倍的下采样。虽然细节(例如,猫毛的纹理、店面上的文字和插图中的细线)有时会丢失或扭曲,但图像的主要特征通常仍然是可识别的。我们使用8192的大词汇量来减轻信息的丢失。原创 2023-06-29 08:38:02 · 1786 阅读 · 0 评论 -
Tune-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning
我们的方法可以很容易地与个性化的T2I模型集成(例如,DreamBooth[39],它以3-5张图像作为输入,并返回一个个性化的T2I模型),直接对它们进行细化。我们的方法还可以与T2I适配器[29]和ControlNet[52]等条件T2I模型集成,在不需要额外训练成本的情况下对生成的视频进行不同的控制。大量的实验证明了我们的方法在广泛的应用中取得了显著的效果。相比之下,我们的方法生成了时间连贯的视频,保留了输入视频中的结构信息,并与编辑过的单词和细节保持一致。每个设计都是单独的,以分析其影响。原创 2023-06-28 08:37:56 · 2080 阅读 · 0 评论 -
Text2Video-Zero:Text-to-Image扩散模型是Zero-Shot视频生成器
此外,我们的方法更忠实于输入细节,例如,Video instruction-pix2pix完全按照提供的姿势绘制舞者(图9左),并显示输入视频中出现的所有滑雪人员(对比图9最后一帧(右)),与Tune-A-Video相比。我们对该领域的贡献包括提出了zero-shot文本到视频合成的新问题,展示了文本到图像扩散模型用于生成时间一致视频的使用,并提供了我们的方法在各种视频合成应用中的有效性的证据。我们证明了我们的方法在各种应用中的有效性,包括条件和专业视频生成,以及视频指导-pix2pix,即指导视频编辑。原创 2023-06-27 16:27:02 · 2095 阅读 · 0 评论 -
[CVPR 2023] Imagic:使用扩散模型进行基于文本的真实图像编辑
当任务是复杂的非刚性编辑时,如让狗坐,我们的方法明显优于以前的技术。相比之下,微调从输入图像中施加的细节不仅仅是优化的嵌入,允许我们的方案在η的中间值中保留这些细节,从而实现语义上有意义的线性插值。与其他编辑方法相反,我们的方法可以产生复杂的非刚性编辑,可以根据要求改变图像内对象的姿势,几何形状和/或组成,以及更简单的编辑,如风格或颜色。我们使用两种不同的最先进的文本到图像生成扩散模型来证明我们的框架是通用的,可以与不同的生成模型相结合:Imagen[53]和Stable diffusion[50]。原创 2023-06-25 22:17:16 · 2529 阅读 · 2 评论 -
Diffusion Models: 方法和应用的综合调查 【01】Diffusion Models基础
我们还讨论了将扩散模型与其他生成模型相结合的可能性,以增强结果。我们进一步回顾了扩散模型在计算机视觉、自然语言处理、时间数据建模以及其他科学学科的跨学科应用等领域的广泛应用。对于每个任务,我们提供了一个定义,描述了如何使用扩散模型来解决它,并总结了相关的先前工作。本调查旨在为扩散模型的状态提供一个情境化的、深入的观察,确定重点领域,并指出进一步探索的潜在领域。原创 2023-06-24 08:46:40 · 636 阅读 · 0 评论 -
Stable Diffusion: 利用Latent Diffusion Models实现高分辨率图像合成
We have presented latent diffusion models, a simple and efficient way to significantly improve both the training and sampling efficiency of denoising diffusion models without degrading their quality.Based on this and our cross-attention conditioning mecha原创 2023-06-20 10:09:27 · 1905 阅读 · 0 评论 -
[论文解析] Debiasing Scores and Prompts of 2D Diffusion for Robust Text-to-3D Generation
In this paper, we formulate and identify the sources of the Janus problem in zero-shot text-to-3D generation. In this light, we argue that debiasing the prompts and raw 2D scores is essential for the realistic generation. Therefore, we propose two methods原创 2023-04-06 10:36:48 · 764 阅读 · 1 评论 -
[论文解析] Anti-DreamBooth: Protecting users from personalized text-to-image synthesis
This paper reveals a potential threat of misused DreamBooth models and proposes a framework to counter the threat. Our solution is to perturb users' images with subtle adversarial noise so that any DreamBooth model trained on those images will produce poor原创 2023-04-05 18:31:30 · 654 阅读 · 0 评论 -
[论文解析] DreamBooth3D: Subject-Driven Text-to-3D Generation
In this paper, we have proposed DreamBooth3D , a method for subject-driven text-to-3D generation. Given a few (3-6) casual image captures of a subject (without any additional information such as camera pose), we generate subject-specific 3D assets that als原创 2023-04-04 11:30:00 · 1393 阅读 · 0 评论 -
[论文解析]Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation
提出了一种新的框架,将文本到图像合成应用到图像到图像的翻译领域——给定一个引导图像和一个目标文本提示作为输入,我们的方法利用预先训练好的文本到图像扩散模型的力量来生成一个符合目标文本的新图像,同时保留引导图像的语义布局。原创 2023-03-31 12:14:40 · 1826 阅读 · 0 评论 -
[论文解析] P+: Extended Textual Conditioning in Text-to-Image Generation
本文在文本到图像模型中引入了一个扩展的文本条件空间,称为P+。该空间由多个文本条件组成,来自每一层的提示,每个对应于扩散模型的去噪U-net的一层。扩展空间为图像合成提供了更大的解缠和控制。进一步提出了扩展文本倒置(XTI),将图像倒置为P+,并用每层标记表示。原创 2023-03-30 11:00:56 · 1050 阅读 · 0 评论 -
[总结] DDPM Diffusion模型各阶段训练和采样过程方案细节和代码逻辑汇总
下面是论文《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models》的代码逻辑进行梳理,code 链接:https://github.com/openai/glide-text2im/Classifier-Free Diffusion Guidance 中的这张图也表达相同的意思,模型增加分类器指导强度时发生的Inception score增加和样本多样性减少的简化表现。原创 2023-01-06 20:27:12 · 5906 阅读 · 1 评论 -
[论文解析] NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image Priors
虽然公式化的优化适用于任何场景,但它更适合于以物体为中心的图像,因为它采取的基本假设是,场景从任何视图都具有完全相同的语义,这对于由于视图变化和遮挡而具有复杂配置的大型场景来说是不正确的。在图3的顶行中,我们显示了从左侧的输入图像中生成的带有标题“产品集合”的图像。虽然它们的语义相对于语言描述是高度准确的,但是生成的图像在其视觉模式中具有非常高的方差,并且与输入图像的相关性很低。首行:虽然它们的语义相对于语言描述是高度准确的,但是生成的图像在其视觉模式中具有非常高的方差,并且与输入图像的相关性很低。原创 2023-01-03 17:59:15 · 1295 阅读 · 0 评论 -
[论文解析] Diffusion Guided Domain Adaptation of Image Generators
正如提示符所描述的,我们的模型有更多电影般的照明。我们利用预先训练的大规模扩散模型的强大功能,并基于最近提出的评分蒸馏采样技术[38],其中文本到图像的扩散作为一个冻结的、有效的评论家,预测图像空间编辑。选择的图层越少,模糊的感觉就会消失,头发的细节也会得到更好的保存。如果我们一起优化生成器层,可能会出现不满意的情况,即使用高层次的整体结构引导损失来更新浅层和详细的生成器层,导致生成的图像模糊。图7:较大的范围可以实现结构变化,并增加图像对目标域的保真度,而较小的范围关注局部变化,并倾向于对源域的保真度。原创 2022-12-14 20:43:19 · 2030 阅读 · 0 评论 -
[l论文解析]Classifier-Free Diffusion Guidance
无分类器指导可以被认为是没有分类器的分类器指导,我们的无分类器指导的有效性证实了**纯生成扩散模型能够最大化基于分类器的样本质量度量,同时完全避免分类器梯度。我们的无分类器指导方法最实用的优点是它的极端简单:它只需要在训练期间更改一行代码—随机去掉条件—以及在抽样期间—混合条件和无条件的分数估计。相比之下,分类器指导使训练管道复杂化,因为它需要训练额外的分类器。在已部署的模型中可能会有负面影响,因为在某些数据部分在其他数据上下文中没有得到充分表示的应用程序中,样本多样性对于维护应用程序非常重要。原创 2022-12-12 15:34:39 · 5055 阅读 · 0 评论 -
[论文解析]DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION
为了从文本合成一个场景,我们初始化一个具有随机权重的NeRF类模型,然后从随机的摄像机位置和角度重复渲染该NeRF的视图,使用这些渲染作为封装在Imagen周围的得分提取损失函数的输入。相反,我们的MLP参数化了表面本身的颜色,然后通过我们控制的照明来照亮它(这个过程通常称为“着色”)。和Dreamfields的不同:我们采用了类似于Dream Fields的方法,但将CLIP替换为2D扩散模型蒸馏产生的损失。我们的工作建立在文本到图像的扩散模型上,在文本嵌入y的基础上学习。原创 2022-12-11 22:49:39 · 7062 阅读 · 2 评论 -
[论文解析] Diffusion Models Beat GANs on Image Synthesis
我们已经表明,扩散模型是一类具有固定训练目标的基于似然的模型,可以获得比最先进的GAN更好的样本质量。在上述推导中,我们假设基础扩散模型是无条件的,即p(x)模型。我们看到,在足够高的尺度下,引导无条件模型可以非常接近非引导条件模型的FID,尽管直接使用类标签进行训练仍然有帮助。扩散模型是一类基于可能性的模型,最近被证明可以产生高质量的图像[56,59,25],同时提供理想的属性,如分布覆盖、固定的训练目标和易于扩展。注意,对于每个时间步t,它们指的是单独的函数,并且在训练时,模型必须以输入t为条件。原创 2022-12-11 16:47:38 · 5456 阅读 · 0 评论 -
[论文解析] Denoising Diffusion Probabilistic Models
扩散概率模型(为方便起见,我们将其称为“扩散模型”)是一种参数化的马尔可夫链,使用变分推理训练产生有限时间后与数据匹配的样本。学习该链的跃迁来逆转扩散过程,这是一个马尔可夫链,逐步向采样的相反方向的数据添加噪声,直到信号被破坏。当扩散由少量高斯噪声组成时,将采样链跃迁设置为条件高斯也就足够了,允许特别简单的神经网络参数化。原创 2022-12-10 20:37:26 · 1218 阅读 · 0 评论 -
[论文解析] Null-text Inversion for Editing Real Images using Guided Diffusion Models
在本文中,我们引入了一种精确的反演技术,从而方便了直观的基于文本的图像修改。(i)扩散模型的关键反演。我们为每个时间戳使用单个关键噪声向量,并围绕它进行优化。我们证明了直接反演本身是不够的,但确实为我们的优化提供了一个很好的锚定。(ii)空文本优化,我们只修改用于无分类器引导的无条件文本嵌入,而不是输入文本嵌入。这允许保持模型权重和条件嵌入不变,因此可以应用基于提示的编辑,同时避免对模型权重进行繁琐的调优。在各种图像和提示编辑上进行了广泛的评估,显示了对真实图像的高保真编辑。原创 2022-12-09 21:52:40 · 4715 阅读 · 0 评论