- 博客(291)
- 资源 (5)
- 问答 (1)
- 收藏
- 关注
原创 [AAAI 2025] MagicNaming: Consistent Identity Generation by Finding a “Name Space” in T2I
本文通过引入N空间,提出了一种新的一般恒等式的一致恒等式生成方法。具体来说,我们构建了一个大规模的身份名称数据集,LaionCele,并训练了一个图像编码器,将真实图像映射到这个N空间。该编码器独立于生成器运行,允许与任何基于sdxml的生成模型集成,以实现一致的ID生成,提供广泛的实际应用。我们的方法的一个关键优点是保留了生成器模型原有的生成能力,包括场景构建、风格化、情感编辑、动作控制等,从而增强了一致性ID生成的灵活性和创造性。大量的实验结果表明,我们的方法在生成图像的ID一致性、语义一致性、图像质量
2025-02-02 11:59:10
1032
原创 [CVPR 2024]InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning
我们提出了一种方法,该方法扩展了现有的预训练文本到图像扩散模型,用于个性化图像生成,而无需测试时间微调。其核心思想是将输入图像转换为通用概念学习的全局令牌,并引入适配器层来合并丰富的局部图像表示,以生成精细的身份细节。大量的结果表明,我们的模型可以在未见过的概念上生成语言对齐和身份保留的图像,只需一次向前传递。这种显著的效率改进将使各种实际的个性化应用成为可能。
2025-02-01 22:13:23
892
原创 [CVPR 2024] Animate Anyone: Consistent and Controllable Image-to-Video Synthesis
在本文中,我们提出了Animate Anyone,这是一个能够将角色照片转换为由所需姿势序列控制的动画视频的框架。我们提出的ReferenceNet既能真实地保留复杂的人物外观,又能实现有效的姿态可控性和时间连续性。我们的方法不仅适用于一般的角色动画,而且优于现有的方法。
2025-02-01 17:42:36
968
原创 [CVPR 2024] AnyDoor: Zero-shot Object-level Image Customization
我们提出AnyDoor用于物体传送。其核心思想是使用鉴别ID提取器和频率感知细节提取器来表征目标对象。在大量视频和图像数据的组合训练下,我们合成了场景图像中特定位置的物体,并进行了有效的形状控制。AnyDoor为一般的区域到区域映射任务提供了一个通用的解决方案,可以为各种应用带来利润。
2025-02-01 15:59:26
785
原创 [arXiv]Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator
我们提出了Diptych prompts,这是一种基于绘画的方法,用于零拍摄主题驱动的文本到图像生成。连环画提示执行文本条件双拼绘画:左面板是包含主题的参考图像,右面板是基于描述包含所需上下文的连环画的文本提示进行绘画。通过去除背景和增强参考关注,我们消除了不必要的内容泄漏,并改善了主题对齐。
2025-02-01 11:43:16
1029
原创 [CVPR 2024] Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation
我们研究了一个尚未开发的文本到图像的生成任务,即动作定制。为了理解任务的挑战,我们首先可视化现有的主题驱动方法在从动作不可知论上下文特征的纠缠中提取动作相关特征方面的不足。然后,我们提出了一种名为ADI的新方法,从给定的图像中学习特定于动作的标识符。为了增加与操作相关的知识的适应性,ADI使用分层标识符令牌扩展了反转过程。
2025-01-31 23:54:52
854
原创 [NeurIPS 2023] Subject-driven Text-to-Image Generation via Apprenticeship Learning
我们的方法SuTI已经显示出无需优化测试时间即可立即生成个性化图像的强大能力。我们的人工评估表明,SuTI在总分上已经优于DreamBooth.
2025-01-31 15:38:44
593
原创 基于diffusers的text-to-image系列generation复现体验
分两类来说,第一种是不需要token就行下载的。第二种是需要token才能下载的。根据huggingface网站中的模型名称(model_id)即可下载模型。对于需要token才能下载的,需要先登录一下huggingface_cli。安装diffusers github repo的提示,逐步配置环境。个人感觉这种下载后目录结构比较乱,就没有采用这种方式。复现第一步,配置环境。输入你的授权token即可。自动下载,下载模型默认存储在。下载需要token的模型了。是指定下载的目的路径。
2025-01-25 11:27:24
220
原创 【Stable Diffusion XL】huggingface diffusers 官方教程解读
为了方便,DiffusionPipeline将这些组件捆绑在一起,你也可以解绑pipeline,分别使用模型和调度程序来创建新的扩散系统。在本教程中,您将学习如何使用模型和调度器来组装用于推理的扩散系统,从基本pipeline开始,然后进展到Stable Diffusion pipeline.本教程向您展示如何使用autoppipeline在给定预训练权值的情况下,自动推断要为特定任务加载的管道类。到目前为止,您已经拥有了开始训练模型的大部分部分,剩下的就是将所有内容组合在一起。
2023-09-09 18:18:10
2905
原创 Stable Diffusion with Diffusers 学习笔记: 原理+完整pipeline代码
这是standard diffusion和Latent diffusion模型之间的关键区别:在Latent diffusion中,模型被训练成生成图像的latent(压缩)表示。编码器将图像表示压缩为较低分辨率的图像表示,解码器将较低分辨率的图像表示解码回假定噪声较小的原始较高分辨率的图像表示。在这篇文章中,我们想展示如何使用Stable Diffusion with the 🧨 Diffusers library,,解释模型是如何工作的,最后深入探讨扩散器是如何允许自定义图像生成pipeline的。
2023-09-08 17:32:03
6848
1
原创 vim操作学习笔记
VIM 的正常模式下(参考上文关于正常模式的描述)按下键盘上的冒号 :这时会在显示屏底部出现冒号 :(进入了 VIM 的命令模式),然后在输入 ls ,屏幕上会出现打开的所有文件的序号和文件名,我们继续输入冒号 : ,然后输入 bn (这里的 n需要做一个解释并不是键盘上的 n ,而是文件序号的代指,如 b1 代表显示屏上切换到第一个文件,b2 代表显示屏上切换到第二个文件)。nfa 移动到本行光标处开始的第 n 个 字符为 a 的地方(n 是 1,2,3,4 …ta 移动光标至 a 字符的前一个字符。
2023-08-21 17:30:54
587
原创 认识Transformer:入门知识
视频链接:https://www.youtube.com/watch?v=ugWDIIOHtPA&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=60Seq2SeqRNN不容易被平行化提出用CNN来代替RNN,CNN 可以平行化,但是需要的层数比较深,才能看完所有的输入内容。b1 到b4 是可以同时被算出。可以用来取代RNN。来源: Attention is all you need然后用每一个a 去对每个k 做attention加速的矩阵乘法过程
2023-08-14 18:54:29
1551
原创 Magic3D: High-Resolution Text-to-3D Content Creation(高分辨率文本到3d内容创建)
在第一阶段,我们使用eDiff-I[2]中描述的基础扩散模型,它类似于DreamFusion中使用的Imagen[38]的基础扩散模型。具体来说,我们使用来自即时NGP[27]的基于密度的体素修剪方法,以及基于八叉树的射线采样和渲染算法[46]。我们的方法被称为Magic3D,可以在40分钟内创建高质量的3D网格模型,这比DreamFusion快2倍(据报道平均需要1.5小时),同时也实现了更高的分辨率。Magic3D是一个两阶段的从粗到精的框架,使用高效的场景模型,实现高分辨率的文本到3d合成(图2)。
2023-07-13 08:58:19
1547
1
原创 Vox-E: Text-guided Voxel Editing of 3D Objects(3D目标的文本引导体素编辑)
最后,我们继承了体积表示的局限性。请注意,与最近的神经 3D 场景表示(包括 ReLU Fields)相比,我们没有对视图相关的外观效应进行建模,因为我们发现当以 2D 基于扩散的模型引导时,它会导致不希望的伪影。在上一节中描述的初始体素网格 Gi的基础上,我们通过优化 Ge 来执行文本引导的对象编辑,Ge 是一个网格,表示从 Gi 初始化的编辑对象。我们引入了一种新的体积正则化损失,直接在3D空间中操作,利用我们的3D表示的显式性质来加强原始和编辑对象的全局结构之间的相关性。
2023-07-01 09:27:31
880
原创 [PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成
Fig 1. 原始图像(上)和离散VAE重建图像(下)的比较。编码器对空间分辨率进行8倍的下采样。虽然细节(例如,猫毛的纹理、店面上的文字和插图中的细线)有时会丢失或扭曲,但图像的主要特征通常仍然是可识别的。我们使用8192的大词汇量来减轻信息的丢失。
2023-06-29 08:38:02
1783
原创 Tune-A-Video:用于文本到视频生成的图像扩散模型的One-shot Tuning
我们的方法可以很容易地与个性化的T2I模型集成(例如,DreamBooth[39],它以3-5张图像作为输入,并返回一个个性化的T2I模型),直接对它们进行细化。我们的方法还可以与T2I适配器[29]和ControlNet[52]等条件T2I模型集成,在不需要额外训练成本的情况下对生成的视频进行不同的控制。大量的实验证明了我们的方法在广泛的应用中取得了显著的效果。相比之下,我们的方法生成了时间连贯的视频,保留了输入视频中的结构信息,并与编辑过的单词和细节保持一致。每个设计都是单独的,以分析其影响。
2023-06-28 08:37:56
2079
原创 Text2Video-Zero:Text-to-Image扩散模型是Zero-Shot视频生成器
此外,我们的方法更忠实于输入细节,例如,Video instruction-pix2pix完全按照提供的姿势绘制舞者(图9左),并显示输入视频中出现的所有滑雪人员(对比图9最后一帧(右)),与Tune-A-Video相比。我们对该领域的贡献包括提出了zero-shot文本到视频合成的新问题,展示了文本到图像扩散模型用于生成时间一致视频的使用,并提供了我们的方法在各种视频合成应用中的有效性的证据。我们证明了我们的方法在各种应用中的有效性,包括条件和专业视频生成,以及视频指导-pix2pix,即指导视频编辑。
2023-06-27 16:27:02
2090
原创 [CVPR 2023] Imagic:使用扩散模型进行基于文本的真实图像编辑
当任务是复杂的非刚性编辑时,如让狗坐,我们的方法明显优于以前的技术。相比之下,微调从输入图像中施加的细节不仅仅是优化的嵌入,允许我们的方案在η的中间值中保留这些细节,从而实现语义上有意义的线性插值。与其他编辑方法相反,我们的方法可以产生复杂的非刚性编辑,可以根据要求改变图像内对象的姿势,几何形状和/或组成,以及更简单的编辑,如风格或颜色。我们使用两种不同的最先进的文本到图像生成扩散模型来证明我们的框架是通用的,可以与不同的生成模型相结合:Imagen[53]和Stable diffusion[50]。
2023-06-25 22:17:16
2526
3
原创 Diffusion Models: 方法和应用的综合调查 【01】Diffusion Models基础
我们还讨论了将扩散模型与其他生成模型相结合的可能性,以增强结果。我们进一步回顾了扩散模型在计算机视觉、自然语言处理、时间数据建模以及其他科学学科的跨学科应用等领域的广泛应用。对于每个任务,我们提供了一个定义,描述了如何使用扩散模型来解决它,并总结了相关的先前工作。本调查旨在为扩散模型的状态提供一个情境化的、深入的观察,确定重点领域,并指出进一步探索的潜在领域。
2023-06-24 08:46:40
636
原创 【NeRF大总结】基于NeRF的三维视觉年度进展报告
NeRF:基于可微体渲染和神经场三维表征的新视角合成方法。隐式神经场:用基于坐标的全连接网络标识颜色场与体密度场体渲染公式:将颜色场合体密度场渲染为图像。
2023-06-21 09:06:56
8028
原创 Stable Diffusion: 利用Latent Diffusion Models实现高分辨率图像合成
We have presented latent diffusion models, a simple and efficient way to significantly improve both the training and sampling efficiency of denoising diffusion models without degrading their quality.Based on this and our cross-attention conditioning mecha
2023-06-20 10:09:27
1903
原创 ubuntu下docker配置:python,cuda
后面跟着的’-zxvf’是参数。安装部分$ make altinstall 命令:这里使用了altinstall,你也可以使用install,代价是它可能会更改自带的python3安装,使得卸载变得困难,甚至使自带的python3变得不可用,但一般不会出现这些恶性错误。配置编译参数:’–prefix=/opt/python3.9’用来指定安装位置,’–with-pydebug’是添加调试工具用的,’–enable-optimizations’用来对编译结果进行优化,提高运行效率的,但会增加编译时间。
2023-06-07 15:09:48
1480
原创 图像生成 FID 分数计算 python 实现
FID(Frechet Inception Distance)分数是一种用于衡量生成模型与真实数据集之间相似性的指标,它是通过计算生成的样本与真实样本在Inception网络中特征表示上的差异程度来计算得出的。FID分数越低,表示生成的样本与真实样本之间的差异越小,生成模型的性能越好。
2023-06-02 10:40:17
5025
3
原创 图像相似性评估:SSIM、PSNR,MES, python代码实现
SSIM : 值越接近1,说明图像越相似PSNR:PSNR越大说明失真越少,生成图像的质量越好MES:MSE值越小,说明图像越相似 需要注意的是,这些相似性评估指标的计算,要求图像具有相同的shape。
2023-05-31 18:09:33
1950
原创 CLIP score:Text-image similarity 以及image-image similarity 评估代码实现
利用CLIP 计算 Text-to-Image task中 生成的图像与对应的prompt的相似程度,该指标越大越好。对应的输出分数是分别对应了test.jpg和的相似程度。值得注意的是,预训练模型需要提前下载好,并放在项目目录下。(可能需要逐个文件下载)
2023-05-31 17:11:27
8874
6
原创 [论文解析] Debiasing Scores and Prompts of 2D Diffusion for Robust Text-to-3D Generation
In this paper, we formulate and identify the sources of the Janus problem in zero-shot text-to-3D generation. In this light, we argue that debiasing the prompts and raw 2D scores is essential for the realistic generation. Therefore, we propose two methods
2023-04-06 10:36:48
763
原创 [论文解析] Anti-DreamBooth: Protecting users from personalized text-to-image synthesis
This paper reveals a potential threat of misused DreamBooth models and proposes a framework to counter the threat. Our solution is to perturb users' images with subtle adversarial noise so that any DreamBooth model trained on those images will produce poor
2023-04-05 18:31:30
651
原创 [论文解析] DreamBooth3D: Subject-Driven Text-to-3D Generation
In this paper, we have proposed DreamBooth3D , a method for subject-driven text-to-3D generation. Given a few (3-6) casual image captures of a subject (without any additional information such as camera pose), we generate subject-specific 3D assets that als
2023-04-04 11:30:00
1392
原创 [论文解析]FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model
We propose a training-free energy-guided conditional diffusion model, FreeDoM, to address a wide range of conditional generation tasks without training. Our method uses off-the-shelf pre-trained time-independent networks to approximate the time-dependent e
2023-04-03 12:19:13
1323
1
原创 [论文解析]Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation
提出了一种新的框架,将文本到图像合成应用到图像到图像的翻译领域——给定一个引导图像和一个目标文本提示作为输入,我们的方法利用预先训练好的文本到图像扩散模型的力量来生成一个符合目标文本的新图像,同时保留引导图像的语义布局。
2023-03-31 12:14:40
1825
原创 [论文解析] P+: Extended Textual Conditioning in Text-to-Image Generation
本文在文本到图像模型中引入了一个扩展的文本条件空间,称为P+。该空间由多个文本条件组成,来自每一层的提示,每个对应于扩散模型的去噪U-net的一层。扩展空间为图像合成提供了更大的解缠和控制。进一步提出了扩展文本倒置(XTI),将图像倒置为P+,并用每层标记表示。
2023-03-30 11:00:56
1049
原创 [论文解析] Cones: Concept Neurons in Diffusion Models for Customized Generation
本文揭示了扩散模型参数空间中的概念神经元。我们发现,对于一个给定的主题,有一小群概念神经元主导着这个主题的生成。关闭它们将产生基于文本提示的给定主题在不同上下文中的演绎。为不同的主题连接它们可以生成结果中的所有主题。进一步的微调可以增强多主题生成能力,这是第一个在一张图像中生成多达四个不同主题的功能。
2023-03-29 10:33:43
799
原创 【论文解析】NeRFInvertor: High Fidelity NeRF-GAN Inversion for Single-shot Real Image Animation
在图像空间监督下,经过微调的模型很好地重构了原始视图中的输入,但容易对输入图像进行过拟合,导致新视图合成图像产生伪影,导致被测对象的三维几何不准确。与现有的图像空间损失Limg相比,在图10和表2中显示了所提出的隐几何正则化(Limp)、显式几何正则化(Lexp)和掩码正则化(全模型)的影响。为了去除伪影并获得更精确的几何形状,我们通过一个掩模来增强几何和图像的正则化,这是基于输入图像上的抠图信息。通常情况下,生成的图像与真实图像之间会有差距,因为在NeRF-GANs中,真实图像大多是域外样本。
2023-01-31 19:24:48
769
2
原创 [总结] DDPM Diffusion模型各阶段训练和采样过程方案细节和代码逻辑汇总
下面是论文《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models》的代码逻辑进行梳理,code 链接:https://github.com/openai/glide-text2im/Classifier-Free Diffusion Guidance 中的这张图也表达相同的意思,模型增加分类器指导强度时发生的Inception score增加和样本多样性减少的简化表现。
2023-01-06 20:27:12
5897
1
原创 [论文解析] NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image Priors
虽然公式化的优化适用于任何场景,但它更适合于以物体为中心的图像,因为它采取的基本假设是,场景从任何视图都具有完全相同的语义,这对于由于视图变化和遮挡而具有复杂配置的大型场景来说是不正确的。在图3的顶行中,我们显示了从左侧的输入图像中生成的带有标题“产品集合”的图像。虽然它们的语义相对于语言描述是高度准确的,但是生成的图像在其视觉模式中具有非常高的方差,并且与输入图像的相关性很低。首行:虽然它们的语义相对于语言描述是高度准确的,但是生成的图像在其视觉模式中具有非常高的方差,并且与输入图像的相关性很低。
2023-01-03 17:59:15
1295
原创 [论文解析] NeRF-Art: Text-Driven Neural Radiance Fields Stylization
不同于现有的方法,在风格化过程中需要网格引导或在风格化中捕获不足的几何变形和纹理细节,我们的方法同时调节其几何和外观以匹配所需的风格,并仅通过文本引导显示几何变形和纹理细节的视觉愉悦结果。CLIP-NeRF风格化的NeRF使用绝对方向损失,我们只在鼻子和头发上看到了足够的“野兽派”风格的风格化,但男人的脸颊还没有完全风格化。(不同于以前的方法,要么缺乏足够的几何变形和纹理细节,要么需要网格来引导风格化,我们的方法可以将3D场景转移到目标风格,其特征是所需的几何和外观变化,而无需任何网格引导)
2022-12-27 13:37:48
1380
1
原创 [论文解析] Diffusion Guided Domain Adaptation of Image Generators
正如提示符所描述的,我们的模型有更多电影般的照明。我们利用预先训练的大规模扩散模型的强大功能,并基于最近提出的评分蒸馏采样技术[38],其中文本到图像的扩散作为一个冻结的、有效的评论家,预测图像空间编辑。选择的图层越少,模糊的感觉就会消失,头发的细节也会得到更好的保存。如果我们一起优化生成器层,可能会出现不满意的情况,即使用高层次的整体结构引导损失来更新浅层和详细的生成器层,导致生成的图像模糊。图7:较大的范围可以实现结构变化,并增加图像对目标域的保真度,而较小的范围关注局部变化,并倾向于对源域的保真度。
2022-12-14 20:43:19
2029
原创 浅谈人工智能生成内容(AIGC)
但目前国内的中文语言大模型在开源一块缺少高质量的语料数据,导致中文版的 AI 在不同话题的写作质量上参差不齐;同时,国内的文字从业者在人力成本上普遍低于海外欧美发达国家,AIGC 在内容生成一块替代人力的节约成本也明显低于海外市场。落地的 AI 在涉及与人博弈的场景中,AI 所提供的服务成本必须在相较于人力成本上有明显优势,才会被现有行业所接受。但更多的人相信,AIGC 会改变现代生产与生活的方方面面,因为 AIGC 所解决的问题是现存的、而非假设的。ZMO.AI 是国内最早成立的 AIGC 公司之一。
2022-12-14 15:44:48
1961
原创 [论文解析]CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields
利用预训练的CLIP 模型来学习两个code mappers, 用于将CLIP 特征映射到 用于修改形状和外观的code.具体地,给定一个文本提示或者一个样本图像 作为我们的condition,我们用预训练的CLIP模型提取特征,并将特征提供给 code mappers,由此在潜在空间中产生局部位移以编辑形状和外观code.我们设计了基于CLIP的损失来加强输入约束和输出渲染之间的CLIP空间一致性,从而支持高分辨率的NERF操作。
2022-12-13 15:40:01
1079
Simple_Rules_AI.pdf
2020-05-27
Hands-onPythonTutorial.pdf
2020-05-27
工程领域大数据和人工智能原则.pdf
2020-05-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人