- 博客(404)
- 收藏
- 关注
原创 论文阅读Diffusion Autoencoders: Toward a Meaningful and Decodable Representation
【代码】论文阅读Diffusion Autoencoders: Toward a Meaningful and Decodable Representation。
2025-04-04 21:33:05
23
原创 球面线性插值(Slerp)
球面插值通常用于在球面上进行插值计算,常见的方法有球面线性插值(Slerp)和球面三角插值。下面介绍一种常用的球面插值方法——。
2025-03-24 10:08:48
304
原创 ViT-Small与Vit-Base区别
隐藏层维度:384维(相较于ViT-Base的768维)Transformer块数:6个(相较于ViT-Base的12个)输出层:1000维,通常用于分类任务这些差异使得ViT-Small在计算和内存需求上更为轻量,但也可能导致其在某些复杂任务中的表现略逊色于ViT-Base。
2025-03-09 15:25:02
241
原创 自回归与自监督分别是什么,区别是什么
自回归专注于序列数据的逐步预测,而自监督学习通过自动生成标签进行预训练,适用于更广泛的任务。- **预训练与微调**:通常先在大规模数据上预训练,再在特定任务上微调。- **应用场景**:语言模型(如GPT)、时间序列预测、语音合成等。- **序列建模**:常用于处理时间序列或序列数据,如文本、语音等。- **逐步预测**:通过逐步生成序列中的每个元素来进行预测或生成。- **自动生成标签**:通过设计预训练任务,从数据中自动生成标签。- 自监督:通过设计任务从数据中生成标签,进行预训练。
2025-03-01 00:12:45
351
原创 论文阅读:Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry
论文通过引入**拉回度量**来定义潜在空间 \(\mathcal{X}\) 的几何结构。拉回度量的核心思想是:如果有一个从潜在空间 \(\mathcal{X}\) 到另一个具有已知度量的空间 \(\mathcal{H}\) 的映射 \(f: \mathcal{X} \rightarrow \mathcal{H}\),那么可以通过这个映射将 \(\mathcal{H}\) 上的度量“拉回”到 \(\mathcal{X}\) 上,从而在 \(\mathcal{X}\) 上定义一个度量。
2025-02-17 19:32:22
424
1
原创 程序一定要调入内存后才能运行吗
程序一定要调入内存后才能运行。这是因为内存(RAM)是计算机中的一种高速存储设备,用于存储程序运行时所需的数据和指令。CPU被设计为只能从内存中读取数据和指令,而不能直接从硬盘等辅助存储器中读取。因此,当你想运行一个程序时,操作系统会先将该程序从硬盘加载到内存中,然后CPU才能读取并执行内存中的指令。
2025-02-17 16:18:22
213
原创 linux中用git将本地代码上传到远程仓库步骤
linux中用git将本地代码上传到远程仓库步骤_linuxgit上传本地项目到远程仓库-优快云博客GitHub pull request(傻瓜式入门版)-优快云博客
2025-02-13 19:11:14
176
原创 论文阅读:InstanceDiffusion: Instance-level Control for Image Generation
文本到图像扩散模型产生高质量的图像,但不提供对图像中单个实例的控制。InstanceDiffusion 支持每个实例的自由形式的语言条件,并允许灵活的方法指定实例位置,例如简单的单点、涂鸦、边界框或复杂的实例分割掩码及其组合。我们的 UniFusion 块支持文本到图像模型的实例级条件,ScaleU 块提高了图像保真度,我们的多实例采样器改进了多个实例的生成。值得注意的是,在 COCO 数据集上,我们在框输入方面优于之前的最新技术 20.4% APbox50,掩码输入的 IoU 为 25.4%。
2025-02-06 20:49:15
200
原创 论文阅读Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models(CVPR2024)
平滑的潜在空间确保输入潜在的微小扰动对应于输出图像的稳定变化。为了解决这个问题,我们提出了平滑扩散(Smooth Diffusion),这是一种新的扩散模型类别,既可以高效地运行,又可以平滑。具体而言,我们引入了逐步变化正则化来强制执行任意输入潜在的变化和输出图像的变化之间的比例在任何扩散训练步骤中都是恒定的。其它亮点:通过设计插值标准差(ISTD)度量潜在空间平滑性,论文在多个数据集上进行了广泛的定量和定性实验,证明了Smooth Diffusion在T2I生成和其他下游任务中的优越性。
2025-01-18 21:25:01
364
1
原创 论文阅读PreciseControl: Enhancing Text-To-Image Diffusion Models with Fine-Grained Attribute Control
我们进行了大量的实验来验证我们的人脸个性化和细粒度属性编辑方法。通过将生成图像的面部嵌入与原始输入图像的面部嵌入进行比较,计算它们之间的均方误差(MSE)。使用预训练的面部识别模型 EIDEID 计算这一损失,确保生成的图像保持输入图像的身份特征。:此损失函数确保生成的图像与文本输入一致,通过引导模型生成与目标词嵌入一致的图像特征。具体来说,它鼓励潜在适配器生成的词嵌入与对应文本描述的词嵌入匹配,从而确保图像与文本的一致性。:此损失用于正则化潜在适配器的输出,确保生成的词嵌入接近目标类的词嵌入。
2025-01-18 13:03:05
374
1
原创 论文阅读FreeDiff: Progressive Frequency Truncation for Image Editing with Diffusion Models (ECCV2024)
然而,这种尝试面临着关键的挑战,即在实践中,预期的精确编辑目标区域与受到指导的更广泛区域之间的错位。在这项工作中,我们从频率的角度重新审视扩散过程和错位问题,揭示了由于自然图像的幂律和衰减噪声时间表,去噪网络主要在早期时间步骤中恢复低频图像分量,因此会为编辑带来过多的低频信号。利用这一见解,我们引入了一种新颖的无需微调的方法,采用渐进式频率截断来改进扩散模型的指导,以进行通用的编辑任务(FreeDiff)。该方法的实验设计合理,证明了其在图像编辑应用中的潜力,是一种值得关注的通用工具。
2025-01-17 22:22:36
204
1
原创 NLP中的问答(Question answering)
在自然语言处理(NLP)中,问答(Question Answering, QA)任务并不严格等同于分类任务,但某些形式的QA任务可以被建模为分类问题。具体情况如下:问答任务是否是分类任务,取决于具体任务形式:因此,问答任务本质上是多样化的,不能简单归类为分类任务,但在某些具体场景下可以被建模为分类问题。
2025-01-10 16:32:52
511
原创 论文解读 IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
转载:unet中的attn_processor的修改(用于设计新的注意力模块)_attnprocessor-优快云博客
2024-12-18 23:25:38
430
原创 VQ-VAE和VAE 的区别是什么?
VQ-VAE的思想是,即使VAE中压缩的这个隐变量中的向量提取了图片中的核心特征信息,但是这些信息仍然可能存在冗余,因此。第一行所展示的就是普通的VAE,它的核心是通过encoder和decoder,将像素空间的图像压缩到一个提取了核心特征的隐变量向量。再次提取这个隐变量向量的核心部分特征。
2024-12-15 20:01:50
266
原创 GAN 是如何学习语义的?
的GAN(Conditional GAN,简称CGAN)中,生成的过程可以有。这种引导信息会作为额外输入传给生成器,使其能够生成具有特定特征的图像。这种通过对抗学习从数据中自动建模语义的特性,使得 GAN 能够生成具有。
2024-12-14 22:10:17
527
原创 Interpreting the Latent Space of GANs for Semantic Face Editing
性质1懒得翻译了,这个主要说的是如何找超平面,也就是一个平面的定义是又法向量来确定的。性质二也懒得翻译的latex打到吐血。它其实说了这么一个事情,空间上的点到某个平面的距离,在一个比较大的概率上都在某个区域内,如果这个空间的点服从某种分布。
2024-12-14 14:11:51
285
原创 神经网络算法 - 一文搞懂GAN(生成对抗网络)
StyleGAN 的潜在空间(latent space)设计丰富多样,不同类型的潜在空间提供了不同的特性以支持多样化的生成和编辑任务。以下是。
2024-12-13 00:54:47
788
原创 【深度学习】Tensorflow报错:AttributeError: module ‘tensorflow‘ has no attribute ‘InteractiveSession‘
转载:【深度学习】Tensorflow报错:AttributeError: module ‘tensorflow‘ has no attribute ‘InteractiveSession‘_attributeerror: module 'tensorflow' has no attribu-优快云博客
2024-12-11 22:41:10
211
原创 diffusion model(十四): prompt-to-prompt 深度剖析
转载:diffusion model(十四): prompt-to-prompt 深度剖析 - 知乎
2024-12-11 18:06:42
404
原创 DDPM, DDIM, LDM 和stable diffusion
综上所述,从DDPM到DDIM,再到LDM,最后到Stable Diffusion,这些模型的发展体现了扩散模型在图像生成领域的不断进步和优化。每一步的发展都在提高生成效率、降低计算成本以及提升图像质量方面做出了贡献。
2024-12-09 10:43:05
1265
原创 Diffusion中guidance_scale 的理解
是一个控制生成图像引导程度的参数。它的含义和使用与论文中的公式 (2) 的引导权重类似。
2024-12-06 17:24:31
998
原创 Dataset用load_dataset读图片和对应的caption的一个坑
发现了我的 datasets的版本是2.1.0。发现我浏览的huaggingface官网的版本是2.4.0。好的,立马换了版本,over,成功读如图片和caption!想要读进图片和以及对应的caption, 结果只是读出来了和label(这里只有一个文件夹,所以label全是0)。自己代码和他写的一摸一样,为什么会把caption读不进去呢?
2024-12-05 00:09:51
307
原创 Directional CLIP loss
具体来说,Directional CLIP loss 的目的是在CLIP空间中识别出源域和目标域之间的方向,然后微调生成器,使得它产生的图像与源域的差异仅沿着这个文本描述的方向。Directional CLIP loss 是在论文 "StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators" 中提出的一种损失函数,用于指导图像生成器在特定领域生成图像,仅通过文本提示,而无需看到任何图像。与源文本和目标文本规定的方向。
2024-12-02 22:55:44
250
原创 Diffusion中的Unet (DDIM)
也就是说在:down,mid和up Block时候都有传入text_embedding的信息encoder_hidden_states和cross attention的控制:cross_attention_kwargs.具体每一个Block的实现看源码。
2024-11-29 22:33:42
536
原创 Classifier Guidance和Classifier-free Guidance的介绍和理解
参考: https://zhuanlan.zhihu.com/p/647931149classifier guidance通过额外的分类器对diffusion过程中的score估计进行条件引导。classifier guidance diffusion的几个问题谷歌在Classifier-free diffusion guidance论文中提出Classifier-Free Guidance方案用以规避上述问题。通过调节引导的权重来控制生成图像的真实性和多样性的平衡。classifier-free guid
2024-11-28 19:36:22
831
原创 diffusion model: prompt-to-prompt 深度剖析
prompt是通过文本编码器(如CLIP的text encoder)转为语义向量再送入到diffusion model的cross-attention层中与图片信息交互。目前大火的文生图技术(text to image),给定一段文本(prompt)和随机种子,文生图模型会基于这两者生成一张图片。生成图片的不同由两个变量决定。:随机种子决定初始的噪声。
2024-11-28 17:49:25
557
原创 论文阅读Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image Editing
像Stable Diffusion这样的Deep Text-to-Image Synthesis (TIS) models 模型最近在创造性文本到图像生成方面获得了显着的普及。然而,对于特定领域的场景,无调整的文本引导图像编辑(Image Editing (TIE) 对应用程序开发人员更为重要。。然而,,注意力图的哪些部分有助于图像编辑的成功。在本文中,我们进行了深入的探测分析,并证明通常包含对象属性信息,这可能导致编辑失败。相比之下,
2024-11-28 01:53:40
1453
1
竞争性自适应重加权算法(CARS)
2024-09-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人