《GANs实战》学习笔记(二)第二章 自编码器生成模型入门

本文深入介绍了自编码器生成模型,包括潜在空间、自编码器的结构和工作原理,以及其在高级场景中的应用。自编码器由编码器和解码器两部分组成,通过降低数据维度实现数据压缩。在训练过程中,通过损失函数对整个网络进行端到端优化。此外,文章对比了自编码器与GAN的区别,并探讨了为什么在某些任务上GAN可能更为优越。最后,通过一个手写数字生成的实例展示了自编码器的潜力,并提出了无监督学习的概念。

GAN(生成对抗网络)出版了一本实战书,了解下?

第二章 自编码器生成模型入门

1、生成模型简介-潜在空间-Latent space

如果有一定的深度学习基础,肯定会对“深度学习如何额获取图像中的原始像素并将其转化为类别预测”这种操作不陌生。例如,可以取包含图像像素的3个矩阵(每个颜色通道各一个)在一个转换系统中传递,最后得到一个数字。如果想反过来做,该怎么办?

生成模型:从要生成内容的描述指令(prescription)开始,最后在转换系统的另一端得到图像。

更正式的表述:取一个特定的描述指令(z)——简单的假设它是介于0和9之间的数字——并尝试得到一个生成的样本(x^*{})。理想情况下,x^*{}应该和另一个真实的样本x看起来一样真实。

描述指令z潜在空间(latent space)中的某个激励,我们不会总是得到相同的输出x^*{}。这个潜在空间是一个习得的表征——希望它按人类思考方式对人们有意义(“解离”)。

不同的模型将学习相同的数据的不同潜在表征

以上内容引自中文书,真费劲,咱们看英语原文吧。

prescription:处方,药方;惯例;指示。前缀pre-表示时间上的“先”。医生先(pre-)写(scrib-)好处方,病人随后按医生指示拿药。

英文原文:We start with a prescription of what we want to produce and get the image at the other end of the transformations. 我们要在转换系统(生成模型)的另一端获得我们想要生成的图像,必须要先有一个“药方,指引”。

A bit more formally, we take a certain prescription (z)—for this simple case, let’s say it is a number between 0 and 9—and try to arrive at a generated sample (x*). Ideally, this x* would look as realistic as another real sample, x. The prescription, z, lives in a latent space and serves as an inspiration so that we do not always get the same output, x*. This latent space is a learned representation—hopefully meaningful to people in ways we think of it (“disentangled”). Different models will learn a different latent representation of the same data.

第1章中的随机噪声向量统称被称为来自潜在空间的样本。 潜在空间是数据点的一种更简单的隐式表示,本书中用z来表示,意味着更低的维度

a vector or array of 100 numbers rather than the 768 that is the dimensionality of the samples we will use.

2、自编码器如何用于高级场景

自编码器由两部分神经网络组成:编码器解码器

举例:压缩。

我们每天都在压缩数据(信息),这样就不会花很长时间去解释已知的概念。自编码器做的就是这件事。

但是不同场景的自编码器不同:讨论我们的工作,我们向祖父母解释的东西不必向我们的同事解释,比如机器学习模型是什么。讨论我们家的猫,我们向同事解释的东西,不必再向我们的父母解释。

不同情景的不同对象的潜在空间不同,因此“自编码器”也不同,但是针对不同场景我们会选择不同的简单表示方式。这个简单表示方式组成的空间,或者说语境,就是潜在的,隐藏的Latent space。潜台词所在的语境。

我们可以将某些重复出现的概念简化为已达成共识抽象概念 。这个简化转化模型就是编码压缩信息传输模式。自编码器可以系统地自动发现这些高效信息模式,对其进行定义,并将它们用作快捷方式来提高信息吞吐量。最终效果:我们只需要传输z即可——这个z是低维的,节省了带宽。

跟同事讨论工作,直接说参数就可以,不需要解释参数背后的意思,跟父母说,就必须讲解所有名词背后的意思和原理。

跟父母讨论家里猫的状况,直接说打开窗子,跟同事说,就必须解释为什么要打开窗子。

潜在空间:是数据的隐式表示。自编码器不是再未压缩的版本中表达单词或图像(例如机器学习工程师,或图像的JPEG编解码器),而是根据对数据的理解来对其进行压缩和聚类特征提取

就像是互联网黑话:赋能、链路、内卷等。跟明白人说,明白就是明白,跟不明白人说,不明白就需要解释。编码器和解码器对应的上,语言语种相通。

3、什么是GAN的自编码器

<
评论 6
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值