Variational Auto Encoder(变分自编码器)
第一行所展示的就是普通的VAE,它的核心是通过encoder和decoder,将像素空间的图像压缩到一个提取了核心特征的隐变量向量空间。VQ-VAE的思想是,即使VAE中压缩的这个隐变量中的向量提取了图片中的核心特征信息,但是这些信息仍然可能存在冗余,因此再次提取这个隐变量向量的核心部分特征。
还有一个写的不错的帖子:
(45 封私信) 为什么vae效果不好,但vae+diffusion效果就好了? - 知乎
VAE的流程: