AIGC
文章平均质量分 91
Kuekua-seu
努力学习AI算法!
博客:kuekua.github.io
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Lora算法原理及应用
Text Embedding空间中的词向量是有足够的表达能力恢复出图像特征,同时Textual Inversion技术不需要对SD系列模型中的U-Net部分进行微调训练(SD模型参数冻结),只需要训练一个新的token embedding就足够了,所以使用Textual Inversion技术不会儿干扰SD模型本身已有的先验知识。LoRA模型的训练逻辑是首先冻结SD模型的权重,然后在SD模型的U-Net结构中注入LoRA权重,主要作用于CrossAttention部分,并只对这部分的参数进行微调训练。原创 2024-10-24 10:35:07 · 1362 阅读 · 0 评论 -
diffusion vs GAN
条件生成对抗网络(cGAN)是 Pix2pix 的基础架构。传统的 GAN(生成对抗网络)包括一个生成器(Generator)和一个判别器(Discriminator),生成器从噪声分布中生成假样本,判别器则尝试区分真假样本。cGAN 则在此基础上加入了条件信息,使得生成过程不仅依赖于噪声,还依赖于特定的条件输入,从而引导生成器生成符合条件的样本。原创 2024-09-27 15:41:52 · 2791 阅读 · 0 评论 -
文生视频算法
3D VAE Encoder能在时间和空间维度上将输入的原始视频映射到Latent空间中。将视频信息的Latent特征和文本信息的Embeddings特征进行Concat后,再Patch化,并进行扩散过程输出去噪后的视频Latent特征。:接收经过大型语言模型(LLM)增强的用户输入Prompt和视觉信息的Prompt,用以引导扩散模型生成具有特定风格或者主题的视频内容。:使用类似于ViT(视觉转换器)的处理方式将视频的Latent特征进行Patch化,并进行扩散过程输出去噪后的视频Latent特征。原创 2024-09-13 12:02:12 · 2988 阅读 · 1 评论 -
虚拟试衣算法
如何提升姿势迁移生成能力,增强细节生成效果,并保持内容的持续性。该方案同样可用于虚拟试衣,换脸等场景。原创 2024-07-26 15:01:40 · 1378 阅读 · 0 评论 -
热门文生图模型
中文文生图能力,进一步提升文生图质量。原创 2024-07-12 11:37:22 · 400 阅读 · 0 评论 -
生成图质量评价
如何对生成图质量进行算法评价,以优化图片质量,提升模型生成能力。原创 2024-07-09 12:26:50 · 753 阅读 · 0 评论 -
Vision Transformer
以上是self-attention的原理,但是还有一个问题是:现在的self-attention中没有位置的信息,一个单词向量的“近在咫尺”位置的单词向量和“远在天涯”位置的单词向量效果是一样的,没有表示位置的信息(No position information in self attention)。k,v来自Transformer Encoder的输出,所以可以看做句子(Sequence)/图片(image)的内容信息(content,比如句意是:“我有一只猫”,图片内容是:“有几辆车,几个人等等”)。原创 2024-05-31 12:11:35 · 1208 阅读 · 0 评论 -
Diffusion model经典论文
Diffusion model现状:比GAN训练更稳定,生成多样性更好,但生成效果不如GAN。作者因此思考,是否可以通过优化网络结构,在真实度和多样性上进行平衡,让生成效果变好。如何在有限计算资源的前提下提升Diffusion model的生成效果。原创 2024-03-07 11:28:52 · 1407 阅读 · 0 评论 -
Stable Diffusion条件控制生成---相关论文集合
新增一个cross-attention layers,结果与text prompt的cross-attention layers结果相加后输入网络,只需要训练Wk, Wv两个参数。如何将图片作为prompt输入网络,并无需更改开源模型参数。原创 2024-01-15 11:32:56 · 1764 阅读 · 0 评论 -
文生图模型之Stable Diffusion
tokenizer最大长度为77(CLIP训练时所采用的设置),当输入text的tokens数量超过77后,将进行截断,如果不足则进行paddings,这样将保证无论输入任何长度的文本(甚至是空文本)都得到77x768大小的特征。text condition将通过CrossAttention模块嵌入进来,此时Attention的query是UNet的中间特征,而key和value则是text embeddings。原创 2023-08-25 15:42:28 · 2719 阅读 · 0 评论 -
AIGC学习资料总结
详细讲述了DALL·E的基本原理,DALL-E1相当于 VQVAE2+GPT(把pixel CNN换成了GPT),DALL-E2 是GLIDE + CLIP。视频还大篇幅讲述基础知识:AE,VAE,VQVAE,GAN,diffusion model的区别,着重讲述diffusion model的原理,还有classifier guided diffusion和classifier free diffusion。原创 2023-04-20 11:12:38 · 678 阅读 · 0 评论
分享