《GANs实战》学习笔记（二）第二章自编码器生成模型入门

最新推荐文章于 2024-10-20 06:30:00 发布

原创

最新推荐文章于 2024-10-20 06:30:00 发布 · 2k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#自编码器 #神经网络 #keras #深度学习

本文深入介绍了自编码器生成模型，包括潜在空间、自编码器的结构和工作原理，以及其在高级场景中的应用。自编码器由编码器和解码器两部分组成，通过降低数据维度实现数据压缩。在训练过程中，通过损失函数对整个网络进行端到端优化。此外，文章对比了自编码器与GAN的区别，并探讨了为什么在某些任务上GAN可能更为优越。最后，通过一个手写数字生成的实例展示了自编码器的潜力，并提出了无监督学习的概念。

第二章自编码器生成模型入门

1、生成模型简介-潜在空间-Latent space

如果有一定的深度学习基础，肯定会对“深度学习如何额获取图像中的原始像素并将其转化为类别的预测”这种操作不陌生。例如，可以取包含图像像素的3个矩阵（每个颜色通道各一个）在一个转换系统中传递，最后得到一个数字。如果想反过来做，该怎么办？

生成模型：从要生成内容的描述指令（prescription）开始，最后在转换系统的另一端得到图像。

更正式的表述：取一个特定的描述指令（z）——简单的假设它是介于0和9之间的数字——并尝试得到一个生成的样本（ $x^*{}$ ）。理想情况下， $x^*{}$ 应该和另一个真实的样本x看起来一样真实。

描述指令z是潜在空间（latent space）中的某个激励，我们不会总是得到相同的输出 $x^*{}$ 。这个潜在空间是一个习得的表征——希望它按人类思考方式对人们有意义（“解离”）。

不同的模型将学习相同的数据的不同潜在表征。

以上内容引自中文书，真费劲，咱们看英语原文吧。

prescription:处方，药方；惯例；指示。前缀pre-表示时间上的“先”。医生先（pre-）写（scrib-）好处方，病人随后按医生指示拿药。

英文原文：We start with a prescription of what we want to produce and get the image at the other end of the transformations. 我们要在转换系统（生成模型）的另一端获得我们想要生成的图像，必须要先有一个“药方，指引”。

A bit more formally, we take a certain prescription (z)—for this simple case, let’s say it is a number between 0 and 9—and try to arrive at a generated sample (x*). Ideally, this x* would look as realistic as another real sample, x. The prescription, z, lives in a latent space and serves as an inspiration so that we do not always get the same output, x*. This latent space is a learned representation—hopefully meaningful to people in ways we think of it (“disentangled”). Different models will learn a different latent representation of the same data.

第1章中的随机噪声向量统称被称为来自潜在空间的样本。 潜在空间是数据点的一种更简单的隐式表示，本书中用z来表示，意味着更低的维度。

a vector or array of 100 numbers rather than the 768 that is the dimensionality of the samples we will use.

2、自编码器如何用于高级场景

自编码器由两部分神经网络组成：编码器和解码器。

举例：压缩。

我们每天都在压缩数据（信息），这样就不会花很长时间去解释已知的概念。自编码器做的就是这件事。

但是不同场景的自编码器不同：讨论我们的工作，我们向祖父母解释的东西不必向我们的同事解释，比如机器学习模型是什么。讨论我们家的猫，我们向同事解释的东西，不必再向我们的父母解释。

不同情景的不同对象的潜在空间不同，因此“自编码器”也不同，但是针对不同场景我们会选择不同的简单表示方式。这个简单表示方式组成的空间，或者说语境，就是潜在的，隐藏的Latent space。潜台词所在的语境。

我们可以将某些重复出现的概念简化为已达成共识的抽象概念 。这个简化转化模型就是编码压缩的信息传输模式。自编码器可以系统地自动发现这些高效信息模式，对其进行定义，并将它们用作快捷方式来提高信息吞吐量。最终效果：我们只需要传输z即可——这个z是低维的，节省了带宽。

跟同事讨论工作，直接说参数就可以，不需要解释参数背后的意思，跟父母说，就必须讲解所有名词背后的意思和原理。

跟父母讨论家里猫的状况，直接说打开窗子，跟同事说，就必须解释为什么要打开窗子。

潜在空间：是数据的隐式表示。自编码器不是再未压缩的版本中表达单词或图像（例如机器学习工程师，或图像的JPEG编解码器），而是根据对数据的理解来对其进行压缩和聚类。特征提取。

就像是互联网黑话：赋能、链路、内卷等。跟明白人说，明白就是明白，跟不明白人说，不明白就需要解释。编码器和解码器对应的上，语言语种相通。

3、什么是GAN的自编码器

最低0.47元/天解锁文章

6 条评论

m0_54394710 2021.05.15
能分享下pdf吗这本书
- 逍遥郎wj回复m0_54394710 2021.05.16
  英文版的如此：https://download.youkuaiyun.com/download/xiaoyaolangwj/18768778 中文版的pdf我也没找到，从京东上买了一本实体书。如果你有了也可以分享出来。英文官网：https://www.manning.com/books/gans-in-action?query=GAN%20in%20action也可以查看。