自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 【扩散模型】潜扩散模型LDMv2原理

通过将图像形成过程分解为去噪自编码器的顺序应用,扩散模型(DMs)在图像数据和其他数据上实现了最先进的合成结果。此外,它们的配方允许一个指导机制来控制图像生成过程,而无需再训练。然而,由于这些模型通常直接在像素空间中操作,因此优化功能强大的dm通常会消耗数百个GPU天,并且由于顺序评估而导致推理成本高昂。为了使DM训练在有限的计算资源上同时保持其质量和灵活性,我们将它们应用于强大的预训练自编码器的潜在空间。

2024-08-19 12:59:59 915

原创 【知识补充】多头注意力和交叉注意力的区别

多头注意力和交叉注意力都是在自注意力的基础上发展而来的,它们的主要区别在于注意力矩阵的计算方式不同。转载☞。

2024-08-18 17:02:31 736

原创 【扩散模型】DALL-E2(unCLIP)原理

像CLIP这样的对比模型已经被证明可以学习图像的鲁棒表示,同时捕捉语义和风格。为了利用这些表示进行图像生成,我们提出了一个两阶段模型:一个先验模型生成给定文本标题的CLIP图像嵌入,一个解码器生成以图像嵌入为条件的图像。我们表明,显式生成图像表示提高了图像多样性,并在照片真实感和标题相似性方面损失最小。我们的解码器以图像表示为条件,也可以产生图像的变体,同时保留其语义和风格,同时改变图像表示中缺失的非必要细节。此外,CLIP的联合嵌入空间使语言引导的图像处理以零拍摄的方式实现。

2024-08-18 16:20:22 798

原创 【扩散模型】多模态大模型CLIP

最先进的计算机视觉系统被训练来预测一组固定的预定对象类别。这种受限制的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从原始文本中学习图像是一种很有前途的选择,它利用了更广泛的监督来源。作者证明了预测哪个标题与哪个图像相匹配的简单预训练任务是一种有效且可扩展的方法,可以在从互联网收集的4亿对(图像,文本)数据集上从头开始学习SOTA图像表示。在预训练之后,使用自然语言来参考学习到的视觉概念(或描述新的概念),从而实现模型向下游任务的零射击转移。

2024-08-16 15:44:59 1061

原创 【扩散模型】引导扩散方法Classifier-free Guidance

现在我们来介绍引导扩散的另一个方法Classifier-free Guidance,该方法也广泛运用于后续的各种扩散模型。论文:CLASSIFIER-FREE DIFFUSION GUIDANCEclassifier guidance到classifier-free guidance之间扩散模型也有了更多的研究,描述的符号也发生了一些改变,采样时间也发生了变化。文章使用了不同之前提到的文章的公式符号,并且将采样时间使用λlogαλ2​σλ2​进行代替。

2024-08-15 11:27:30 1289

原创 【扩散模型】引导扩散方法ClassifierGuidance

DDPM和DDIM只能通过特定的采样方式恢复与训练集相似的图片,而在采样过程中生成的方向我们难以控制。因此,对实现扩散模型在采样过程中的引导,使其生成我们想要的种类图片有着重要意义。Classifier Guidance就是其中一个方法。

2024-08-15 00:21:31 1198

原创 【扩散模型】加速采样算法DDIM《Denoising Diffusion lmplicit Models》论文原理

对于一个已经训练好的DDPM,只需要对采样公式做简单的修改,模型就能在去噪时跳步骤,在一步去噪迭代中直接预测若干次去噪后的结果。DDIM论文推广了DDPM的数学模型,打破了马尔科夫链的过程,从更高的视角定义了DDPM的反向过程(去噪过程)。在这个新数学模型下,我们可以自定义模型的噪声强度,让同一个训练好的DDPM有不同的采样效果。

2024-08-14 22:26:48 739

原创 【扩散模型】DDPM论文理解

DDPM(Denoising Diffusion Probabilistic Models)更详细解读可以参考(这几个视频看完基本对DDPM的原理就能够把握了)李宏毅大白话AIb站公式推导1b站公式推导2基本过程扩散模型受扩散现象的启发,通过逐步向图片中加入高斯噪声来模拟这种现象,并通过逆向过程从(随机)噪声中生成图片。添加噪声的两个条件:(1)整个过程的状态都服从马尔科夫性质(2)每一步加入的噪声变化都比较少,则变化过程可以近似为高斯分布。前向过程加入噪声的混合公式:将

2024-08-13 17:28:25 1721 1

原创 【知识补充】KL散度Kullback-Leibler Divergence(相对熵)

在神经网络训练中,由于已知为固定值,故经常最小化交叉熵作为损失函数,即。事件越确定,得到的值越小。本质是对不确定性的度量。

2024-08-13 16:27:00 253

原创 【diffusion发展历程】扩散模型diffusion入门-感知整体框架

扩散模型生成属于AIGC范畴,AIGC是Artificial Intelligence Generated Content——生成式人工智能的缩写,是人工智能1.0到2.0时代的一个重要标志。扩散模型从2022年开始大火以来,在很多领域都有十分不错的表现,并且发展速度迅猛。特别是在图像生成、3D图像生成、音频生成等都有重大发展。本专栏文章主要讲解扩散模型diffusion在图像生成领域的重要发展和表现。

2024-08-13 16:14:24 1586

原创 【终端常见命令使用】深度学习入门-服务器运行(持续更新)

使用anaconda对架构和配置进行设置,以及需要实验服务器运行代码时需要用到终端命令。本文主要记录一些常见的命令和问题。

2024-08-13 14:49:05 471

原创 【debug日记】TypeError: __init__() got an unexpected keyword argument ‘socket_options‘

找到报错的文件,是httpx库的文件,查看项目环境包要求,并没有要求httpx版本。所以直接将httpx进行更新。原因可能是使用的库版本不支持所传递的参数。运行扩散模型代码过程中,出现。再运行就不会报错了。

2024-08-11 15:00:21 236

原创 【debug日记】torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 96.00 MiB (GPU 0; 23.70

(2) 可以在代码运行前shell或bash脚本中加。实际上是只设置gpu:1可见, 而屏蔽其他gpu卡。(1) 可以在py代码开头(一定要在开头)加。(3)在程序中使用set_device()指定到空闲的显卡进行训练。具体解决方法可以查看。选择GUP空闲的显卡。

2024-08-11 10:01:30 577

原创 【debug日记】python安装opencv出现如下错误:Could not find a version that satisfies the requirement cv2 (from vers

打开终端,直接输入如下命令安装时发现会提示出错。

2024-07-30 14:52:30 501

原创 【debug日记】pip install 报错ValueError: check_hostname requires server_hostname

关闭加速器、关掉VPN。

2024-07-28 00:08:10 134

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除