
AIGC
文章平均质量分 83
东风中的蒟蒻
这个作者很懒,什么都没留下…
展开
-
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(2024,8)
本质是将LLM的transformer和图像中的diffusion结合了起来,使用同一个transformer来同时处理文本和图像信息.之前的DiT架构都是使用一个预训练的TextEncoder来提取文本信息,并通过Concat、AdaLN、架构改进:论文还探讨了Transfusion模型的不同变体,包括使用不同大小的图像补丁、不同的编码/解码架构(线性层与U-Net块),以及限制图像噪声的程度,以提高特定任务的性能。这允许图像内的每个补丁能够相互注意,同时只能注意序列中先前出现的文本或图像补丁。原创 2024-09-04 23:03:11 · 1440 阅读 · 0 评论 -
Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022) | Codeformer
这篇论文试图解决的是盲目面部恢复(blind face restoration)问题,这是一个高度不确定的任务,通常需要辅助指导来改善从低质量(LQ)输入到高质量(HQ)输出的映射,或者补充输入中丢失的高质量细节。上图给出了为什么使用VQVQE,因为VAE输出的Embedding是连续的,包含的潜空间太大,而VQVAE可以看作聚类,从LQ->HQ的映射,为了保证图像质量,我们希望这个映射空间较小,从而更可能生成高质量的图像.,更有利于模型学习.CodeFormer也可以用于图像编辑之类的.原创 2024-09-04 22:57:58 · 683 阅读 · 0 评论 -
RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs(IEEE,2023
VQVAE部分.VQVAE在Encoder和Decoder中间的潜空间进行的,并且VQVAE的输出作为Decoder的Q来进行Cross Attention,作者认为之间构建的Facial Component Dictionary并没有包含足够的语义信息,通过VQVAE进行编码的ROHQD能够包含更多的细节信息.动机:认为之前的模型都只关注了图像的纹理信息,而忽视了人脸的细节信息,本文采用多尺度、交叉注意力的方式引入模型的语义信息.TODO:之后在做超分的任务时可以关注一下这个EDM构造数据集的做法.原创 2024-09-04 22:56:17 · 407 阅读 · 0 评论 -
图像评估指标
FID、PSNR、SSIM、LPIPS等图像评估指标原创 2024-08-19 21:39:38 · 612 阅读 · 0 评论 -
ControlNeXt: Powerful and Efficient Control for Image and Video Generation(2024,8)
ControlNeXt Paper Reading原创 2024-08-19 21:23:40 · 764 阅读 · 0 评论 -
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
清华 智普最新T2V模型,CogVideoX,能生成480x720的6s fps=8视频,经过测试位于第二梯队,弱于快手可灵,Luma等模型原创 2024-08-15 23:40:00 · 1109 阅读 · 0 评论