
图像生成GAN
文章平均质量分 80
StyleGAN的各种
Pengsen Ma
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
理解分类器(linear)为什么可以做语义方向的指导?(解纠缠)
在解纠缠的过程中,有一种非常简单的方法来引导G向某个方向进行生成,然后我们通过向不同的方向进行行走,那么就会得到这个属性上的图像。那么你利用多个方向进行生成,便得到了各种方向的图像,每个方向对应了很多的编辑后的图像,这就完成了解纠缠。原创 2024-09-08 20:37:39 · 644 阅读 · 0 评论 -
什么是in-the-wild image(野生图像)?怎么更好的利用这些图像(通过BLIP)
in-the-wild image中文说法叫做野生图像没有在训练集中出现的,随便的一个图像,而不是像imageNet这种有标签的图像,比如网上随便找的一张图像都可以称为in-the-wild image。原创 2024-08-31 15:29:22 · 545 阅读 · 0 评论 -
GAN Inversion(GAN 反演)
在生成过程中,我们通过将z输入G,然后得到图像,但是你这个Z是不定的(随机的高斯分布噪声),所以即使你得到了质量好的生成图像,但是依然无法通过修改你这个图像对应的Z来实现图像编辑。为了可以实现图像编辑,我们需要找到这个图像对应的latent z,也就是一个可以被调控的tensor,那么我们就可以通过修改tensor的某些维度来实现对图像的编辑。那么找到这个latent z的过程就是inversion。原创 2024-08-29 09:55:57 · 541 阅读 · 0 评论 -
Attribute Manipulation(属性编辑)、disentanglement(解纠缠)常用的两种做法:线性探针和PCA
解纠缠也对应于属性编辑,比如人脸的属性编辑,将人脸变微笑、变衰老,其中每一个属性变化也对应了一种有意义的latent direction。想要应用这种direction可以分为两种方式:有监督的linear-probe(线性探针)和无监督的PCA方式。原创 2024-07-30 08:18:06 · 484 阅读 · 0 评论 -
DALL-E、Stable Diffusion 等 20+ 图像生成模型综述
类别条件生成是非常常见的一种场景,也有许多相关的任务,其中 ImageNet 是最常见的一种,ImageNet 常用于图像分类任务,每个图像都有一个类别标签,总共有 1000 个类别。在图像生成领域,可以指定对应的类别标签,然后让模型按照类别生成图像。有条件生成是指生成模型在生成图像时受到额外条件或上下文的影响。或者在生成特定类别的图像时,提供类别标签。无条件生成是指生成模型在生成图像时不受任何额外条件或约束的影响。模型从学习的数据分布中生成图像,而不需要关注输入条件。原创 2024-07-04 17:23:28 · 1244 阅读 · 0 评论 -
DEiT中如何处理mask数据的?与MAE的不同
在DeiT里面,是通过mask的方式,将mask+unmasked的patches输出进ViT中,但其实在下游任务输入的patches还是和训练时patches的数量N是一致的(encoder所有的patches)。而MAE是在encoder中只encoder未被mask的patches。原创 2024-03-17 16:24:47 · 483 阅读 · 0 评论 -
像素、分辨率、dpi
一个最小图像单元(只能涂一个颜色)的小方块,就是1px。原创 2024-03-15 17:32:35 · 1846 阅读 · 0 评论 -
【ICCV 2023】MDTv2 + Masked Diffusion Transformer is a Strong Image Synthesizer
训练步骤:During inference, MDT replaces the side-interpolater with additional position embedding. MDT takes the latent embedding of a Gaussian noise as input to generate the denoised latent embedding, which is then passed to a pre-trained VAE decoder [38] for原创 2024-02-29 20:03:06 · 1122 阅读 · 0 评论 -
【ICCV 2022】(MAE)Masked Autoencoders Are Scalable Vision Learners
恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders(MAE)。所提MAE极为简单:对输入图像的随机块进行mask并对遗失像素进行重建。上述两种设计促使我们可以更高效的训练大模型:我们加速训练达3x甚至更多,同时提升模型精度。下游任务的迁移取得了优于监督训练的性能,证实了所提方案的可扩展能力。:是BERT的掩码自编码机制:移除一部分数据并对移除的内容进行学习。原创 2023-12-17 11:18:57 · 622 阅读 · 0 评论 -
【CVPR 2023】(MAGE)MAsked Generative Encoder To Unify Representation Learning and Image Synthesis
MAGE是生成任务和表示学习的统一框架。为了实现这种统一,我们首先使用预训练的VQGAN模型将输入图像量化为语义token。然后,我们使用从0.5到1不等的可变mask比率随机mask掉一些输入token(参见图3),并应用编码器-解码器trabsformer架构来预测被mask的token。我们可以通过在编码器(MAGE-C)的输出上添加类似于SimCLR[9]的简单而有效的对比损失来进一步提高学习表征的可分性。下面,我们将详细描述我们的设计。原创 2023-12-17 11:07:25 · 1514 阅读 · 0 评论 -
图像生成中的“Classifer guidance、Classifer-free guidance”是什么?
在OpenAI的扩散模型中,"Classifier-free guidance"通过在训练期间同时训练模型来生成有条件的输出和无条件的输出来实现。条件生成模型是根据给定的条件(例如文本描述)来生成数据(例如图像)的模型。这通常是通过在模型的输入条件中混合噪声来实现的,使得模型学会在没有明确指导的情况下生成与条件相符的数据。总的来说,"Classifier-free guidance"是一种减少对外部分类器依赖的技术,它可以使生成模型更直接地专注于生成符合给定条件的数据,同时提供了控制条件强度的灵活性。原创 2023-12-13 14:20:41 · 5465 阅读 · 1 评论 -
Self-conditioned Image Generation via Generating Representations
paper:https://arxiv.org/abs/2312.03701code:GitHub - LTH14/rcg: PyTorch implementation of RCG https://arxiv.org/abs/2312.03701原创 2023-12-13 10:44:09 · 922 阅读 · 0 评论 -
StyleGAN-XL代码运行
下面这个代码是处理为256*256的,但是因为要渐进式训练,所以你需要做很多类似的文件夹(类似的命令),分别是16*16、32*32、64*64、128*128、256*256。直接从16*16的训练到64*64。原创 2023-05-31 17:34:39 · 864 阅读 · 7 评论 -
【图像生成Metrics】快速计算FID、KID、IS、PPL、PRC
【图像生成Metrics】快速计算FID、KID、ISC、PPL原创 2022-11-12 20:00:07 · 7761 阅读 · 9 评论 -
Inception Score(IS)代码和解析
Inception Score(IS)代码和解析原创 2022-11-12 11:19:29 · 4026 阅读 · 0 评论 -
ContraGAN: Contrastive Learning for Conditional Image Generation
ContraGAN: Contrastive Learning for Conditional Image Generation原创 2022-11-05 08:33:25 · 372 阅读 · 0 评论 -
【PGGAN】3、代码解析
【PGGAN】代码解析3原创 2022-11-04 19:39:38 · 1342 阅读 · 0 评论 -
【FastGAN】★Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis
Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis原创 2022-10-30 20:29:04 · 2163 阅读 · 1 评论 -
VAEGAN:理解 VAE 与 GAN【图像生成】
VAEGAN:理解 VAE 与 GAN【图像生成】原创 2022-10-30 09:19:29 · 5988 阅读 · 4 评论 -
一文总结图像生成必备经典模型(二)
一文总结图像生成必备经典模型(二)原创 2022-10-27 21:38:10 · 451 阅读 · 0 评论 -
一文总结图像生成必备经典模型(一)
一文总结图像生成必备经典模型(一)原创 2022-10-23 13:55:56 · 6831 阅读 · 3 评论 -
StyleGAN 架构解读(重读StyleGAN)精【4】代码运行
StyleGAN 架构解读(重读StyleGAN)精【4】代码运行原创 2022-10-14 14:43:34 · 814 阅读 · 3 评论 -
【自监督GAN】Self-Supervised GANs via Auxiliary Rotation Loss(SS-GAN)
【自监督GAN】Self-Supervised GANs via Auxiliary Rotation Loss原创 2022-10-11 19:44:19 · 2067 阅读 · 0 评论 -
Dynamically Grown Generative Adversarial Networks(DGGAN:针对PGGAN的升级)
Dynamically Grown Generative Adversarial Networks原创 2022-10-10 21:16:52 · 739 阅读 · 0 评论 -
【预训练GAN】Projected GANs Converge Faster
Projected GANs Converge Faster:收敛更快的投影GAN原创 2022-10-08 08:21:31 · 3908 阅读 · 3 评论 -
【PGGAN】1、Progressive Growing of GANs for Improved Quality, Stability, and Variation 论文阅读
Progressive Growing of GANs for Improved Quality, Stability, and Variation(PGAN) 论文阅读原创 2022-10-04 10:26:26 · 2809 阅读 · 3 评论 -
【PGGAN】2、利用ProgressGAN进行的探索
这里一定要注意,-n 是模型的名称“pubchem”而不是它的全称"pubchem_s5_i62000.pt"1、应该先启动visdom,然后再运行命令。原创 2022-09-02 16:58:31 · 947 阅读 · 0 评论 -
MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks
MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks原创 2022-10-06 20:51:12 · 620 阅读 · 0 评论 -
StyleGAN 架构解读(重读StyleGAN)精【1】
StyleGAN 的前身——ProGAN上图是 ProGAN 的网络结构图。这项技术首先通过学习即使在低分辨率图像中也可以显示的基本特征,来创建图像的基本部分,并且随着分辨率的提高和时间的推移,学习越来越多的细节。低分辨率图像的训练不仅简单、快速,而且有助于更高级别的训练,因此,整体的训练也就更快。特别值得注意的是,上图 Generator 中的网络结构不是指的从 4*4 网络连接到 8*8 网 络,再连接到 16*16 网络依次输出,而是指的从 4*4 网络变化到 8*8 网络,再变化到 16原创 2021-05-01 17:11:30 · 58075 阅读 · 13 评论 -
StyleGAN 架构解读(重读StyleGAN)精【2】
StyleGAN再次理解原创 2022-10-07 15:50:02 · 2585 阅读 · 0 评论 -
StyleGAN 架构解读(重读StyleGAN)精【3】(总结StyleGAN1和StyleGAN2)
StyleGAN 架构解读(重读StyleGAN)精【3】原创 2022-10-07 19:53:36 · 5288 阅读 · 1 评论 -
StyleGAN2-ADA (代码理解)
StyleGAN2-ADA (代码理解)原创 2022-08-29 14:53:14 · 3096 阅读 · 4 评论 -
使用生成对抗网络进行端到端中国山水画创作(SAPGAN)
摘要:目前基于gan的艺术生成方法由于依赖于条件输入而产生非原创的作品。在此,我们提出了“素描-绘画GAN”(SAPGAN),这是中国山水画的第一个不需要条件输入就能从头到尾生成的模型。SAPGAN由两个gan组成:SketchGAN用于生成边缘地图,PaintGAN用于随后的边缘到绘画的翻译。我们的模型是在一个新的中国传统山水画数据集上训练的,此前从未用于生成研究。一项242人的视觉图灵测试研究显示,有55%的人会把萨普根的画误认为是人类艺术品,显著优于基线的甘斯画。我们的工作为真正的机器原创艺术一代原创 2021-04-20 19:42:45 · 21172 阅读 · 8 评论 -
SAGAN原理及代码(B站详解,很值得一看)
代码地址:https://github.com/heykeetae/Self-Attention-GAN视频讲解:https://www.bilibili.com/video/BV1yy4y1v7441.背景+整体介绍SAGAN:将self-attention机制引入到GANs的图像生成当中,来建模像素间的远距离关系,用于图像生成任务CGAN的缺点:1.依赖卷积建模图像不同区域的依赖关系,由于卷积核比较小一般都是1*1,3*3,5*5...==>卷积感受野太小,需要进行多层卷积才能获原创 2021-04-25 21:25:14 · 26847 阅读 · 7 评论 -
SAGAN生成更为精细的人脸图像(tensorflow实现)
一、背景SAGAN全称为Self-Attention Generative Adversarial Networks,是由Han Zhang等人[1]于18年5月提出的一种模型。文章中作者解释到,传统的GAN模型都是在低分辨率特征图的空间局部点上来生成高分辨率的细节,而SAGAN是可以从所有的特征处生成细节,并且SAGAN的判别器可以判别两幅具有明显差异的图像是否具有一致的高度精细特征。SAGAN目前是取得了非常好的效果。本文以CelebA数据集为例,用SAGAN生成更为精细的人脸图像,主要参考代码原创 2021-04-25 15:10:55 · 18465 阅读 · 4 评论 -
SAGAN(G-lab介绍)
1.SAGAN解决的问题用深度卷积网络能够提升 GANs 生成高分辨率图片的细节,但是由于卷积网络的局部感受野的限制,如果要生成大范围相关(Long-range dependency)的区域,卷积网络就会出现问题。譬如说在生成人脸图片时,是非常注重细节的,以左右眼举例,只要左右眼有一点点不对称,就会显得生成的人脸特别不真实。但是因为一般的卷积核很难覆盖很大的区域,在对左眼区域做卷积时它看不到右眼对左眼的影响,这样产生的图片就会缺乏人脸结构特征的完整性。因此,现在我们需要解决的问题是,如何找到一种能够利用原创 2021-04-25 16:31:54 · 18608 阅读 · 0 评论 -
BigGAN(2019)
论文引入BigGAN 现在已经挂在了 arXiv 上,在此之前,BigGAN 正处于 ICLR 2019 的双盲审阶段,大家也都在猜测 BigGAN 这样的大作是谁带来的。现在根据 arXiv 上的信息,这篇文章的作者是由英国赫瑞瓦特大学的 Andrew Brock 以及 DeepMind 团队共同带来。拿到这篇论文看了一下摘要,我的第一反应是假的吧?What?仔细阅读,对比了实验才感叹 GAN 已经能做到这种地步了!我们来看一下由 BigGAN 生成的图像:是不是觉得生成的太逼真了,的确如原创 2021-04-02 15:28:54 · 22526 阅读 · 0 评论 -
如何实现现实人脸照片的编码
因为目前StyleGAN生成的都是虚拟人物,如果我们能找到现实人物在初始域中对应的编码的话,那就意味着可以对现实中的人物进行操作和变化,这会带来一个很有意思的场景:我们每个人的人脸都可以用一个(18,512)维度的向量来表示,并且只要对这个向量稍作一些变动,就能生成出一个略微不同于我们的新的人脸模样(如下图所示)。 我们认为这个想法是有意义的,因为这意味着虚拟人物的生成能与现实人物产生依托或关联。首先有必要从理论上来简单解释一下这个想法——虽然我们无法保证StyleGAN的生成分布域涵盖了地球上所原创 2021-04-28 10:06:07 · 16925 阅读 · 2 评论 -
StyleGAN如何定制人脸生成
目录定制人脸生成方法一 从源头控制生成图片方法一优化 取消Z码生成器,改为微调图片生成器方法二 从生成过程中控制生成图片方法三 借助InfoGAN的思想修改StyleGAN的架构定制人脸生成 这一部分会介绍基于StyleGAN,进一步地做定制人脸生成使用的方法。目前采用过的方法有三种:第一种是从源头上通过控制生成码Z的分布范围,从而控制生成的人脸类型,这种方法能控制性别、人种、年龄等粗略类型;第二种方法是在图片生成器的内部,通过特定维度上特征的替换,将引入的目标(模板...原创 2021-04-28 09:48:23 · 18822 阅读 · 0 评论 -
Image2StyleGAN:如何将图像嵌入到 StyleGAN 潜在空间中?
摘要:我们提出了一种有效的算法,将给定的图像嵌入到 StyleGAN 的潜在空间中。这种嵌入使语义图像编辑操作可应用 于 现 有 照 片 。 以 在 FFHQ 数 据 集 上 受 过 训 练 的 StyleGAN 为例,我们显示了图像变换,样式转移和表达转移的结果。研究嵌入算法的结果可为 StyleGAN 潜在空间的结构提供有价值的见解。我们提出了一组实验来测试可以嵌入哪些类别的图像, 如何嵌入图像, 适合嵌入的潜在空间 以及嵌入是否在语义上有意义。1. 介绍StyleGAN 利.原创 2021-04-19 21:53:25 · 19315 阅读 · 2 评论