自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 【论文阅读】InstanceDiffusion: Instance-level Control for Image Generation

虽然这种方式在很多任务中有效,但有研究发现,直接拼接这两类特征可能会导致网络忽视主特征中的语义信息,因为跳跃连接主要传递高频特征(边缘信息),而主特征包含的是更重要的低频信息(整体结构)。这指的是当多个实例同时出现时,它们之间的条件可能相互影响,导致生成图像时无法准确区分各个实例的属性。UniFusion 能够将多种不同形式的实例级条件(如文本描述、布局信息等)投影到相同的特征空间中,并将这些实例级的布局和描述信息注入到视觉特征中。,它通过提供精确的实例级控制,增强了文本到图像的扩散模型。

2024-12-13 16:09:41 1982 1

原创 深入剖析视觉语言模型:它们真的理解组合性吗?

目前,主流的视觉语言模型(VLMs),如 CLIP 和 BLIP,通常依赖大规模标注数据进行训练,并在许多成熟的基准测试中表现出优异性能。基于这一点,本文认为,不学习组合信息可能是一种有效的捷径策略,正如 Geirhos 等人(2020)所指出的那样,VLM 在对比预训练阶段几乎没有动力去学习组合性编码。为了解决这一问题,本文作者提出了一项最新的研究成果,系统地分析了现有模型的局限性,并探讨了提升组合性理解能力的潜在改进方向。暗示了更强大的语言模型可能有助于提升模型在这些复杂任务上的表现。

2024-11-27 10:09:45 692

原创 Difussion模型(DDPM)--易懂解释

是一种生成模型,可以用来生成高质量的数据样本,例如图像。DDPM的核心思想是通过一个逐步增加噪声的过程,称为前向扩散破坏数据,然后通过学习的逆过程将加入的噪声逐步去掉,最终还原出原始数据。DDPM使用一种,通过前向扩散过程将数据逐步变为噪声,然后通过逆过程(使用神经网络参数化的模型)一步步去噪还原数据。图中下方箭头表示从原始数据​ 开始,逐步向高斯噪声​ 转变的过程。数据​ 随着时间步的增加逐渐被噪声污染,从清晰的图像(左边的狗)逐步变为纯噪声(右边的随机图像)。

2024-11-20 16:20:26 2793

原创 变分推断(Variational inference)——VAE、Difussion先验知识

在机器学习和数据科学中,推断(Inference)指的是使用已训练好的模型对新数据进行预测或分类的过程。推断方法通常分为精确推断和近似推断两类:精确推断:精确推断(例如贝叶斯推断)可以准确计算出后验分布。然而,当模型变得复杂或数据量增大时,精确计算后验概率分布往往变得不可行,因为这需要对高维空间进行积分,这在计算上往往是不可行的。近似推断:为了解决精确推断的计算瓶颈,引入了近似推断方法。其中常见的方法包括马尔可夫链蒙特卡洛(MCMC)方法和变分推断(Variational Inference, VI)

2024-11-13 11:35:28 1821 1

原创 VAE 数学推导

变分自编码器(VAE)是一种生成模型,能够学习数据的隐空间表示,并在该隐空间中生成新的与输入数据相似的样本。最后,VAE 可以通过梯度下降算法来最大化 ELBO,训练编码器和解码器,使得模型在隐空间中学习数据的分布,并在生成过程中从该隐空间采样新的数据。在理解了 VAE 的优化目标以及 ELBO 的分解后,我们接下来需要解决模型训练中的一个关键问题:如何有效地计算和优化重构项的梯度。由于 KL 散度的性质,我们知道其是非负的,因此去掉该项后,得到的结果是一个下界,即 ELBO。时的隐变量分布)之间的差异。

2024-11-06 10:58:08 918 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除