基于变分自编码器和生成对抗网络的图像生成技术
1. 概念向量与图像编辑
在图像的潜在表示空间中,存在着概念向量。概念向量的核心思想是,在给定的潜在空间或嵌入空间里,某些方向能够编码原始数据中有趣的变化轴。以人脸图像的潜在空间为例,可能存在一个微笑向量 $s$。若潜在点 $z$ 是某张人脸的嵌入表示,那么 $z + s$ 就是同一张人脸微笑时的嵌入表示。一旦识别出这样的向量,就可以将图像投影到潜在空间,以有意义的方式移动其表示,再解码回图像空间,从而实现图像编辑。在图像空间中,基本上任何独立的变化维度都存在相应的概念向量,比如给人脸添加太阳镜、去除眼镜、将男性人脸变为女性人脸等。
2. 变分自编码器(VAEs)
2.1 VAEs 概述
变分自编码器是一种生成模型,非常适合通过概念向量进行图像编辑任务。它结合了深度学习和贝叶斯推理的思想,是对传统自编码器的现代改进。传统图像自编码器通过编码器模块将图像映射到潜在向量空间,再通过解码器模块将其解码回与原始图像相同维度的输出,并以输入图像作为目标数据进行训练,从而学习重建原始输入。通过对编码器的输出(代码)施加各种约束,可以让自编码器学习到或多或少有趣的数据潜在表示,常见的约束是使代码低维和稀疏。然而,传统自编码器在实际应用中往往无法产生特别有用或结构良好的潜在空间,压缩效果也不佳,因此逐渐失宠。而 VAEs 通过引入一些统计技巧,迫使模型学习连续、高度结构化的潜在空间,成为了强大的图像生成工具。
2.2 VAEs 工作原理
VAEs 并非将输入图像压缩为潜在空间中的固定代码,而是将图像转换为统计分布的参数:均值和方差。这意味着假设输入图像是由一个统计过程生成的,并且
超级会员免费看
订阅专栏 解锁全文
1005

被折叠的 条评论
为什么被折叠?



