自动编码器的深入探索:从混合潜在变量到变分自动编码器
1. 混合潜在变量
在卷积自动编码器中,我们尝试混合潜在变量。具体做法是,选取网格中前两行图像,找出它们各自的潜在变量,将其进行等比例混合,再对插值后的变量进行解码,从而生成第三行图像。然而,结果并不理想,图像显得模糊不清,尽管能看出有上两行图像混合的感觉,但我们不应对此感到过于惊讶,因为像数字 7 和 3 之间的过渡数字该是什么样子,本身就不明确。
当我们观察之前使用过的三种混合方式的多个步骤时,发现结果与简单自动编码器相比,并没有明显改善。这表明,即使拥有更多的潜在变量,当使用与训练样本差异较大的输入进行重建时,系统仍然会遇到问题。例如,在训练过程中没有涉及数字 4 和 3 之间过渡状态的输入图像,所以系统缺乏如何从表示此类状态的潜在值生成图像的有效信息。
2. 对新输入的预测
我们对卷积神经网络进行了一项不太合理的测试,将低分辨率的老虎图像输入其中。从结果来看,如果眯着眼看,似乎眼睛、嘴角和鼻子周围的主要深色区域得以保留,但这也可能只是我们的想象。与之前由全连接层构建的自动编码器类似,卷积自动编码器试图在数字的潜在空间中寻找老虎的特征,显然,我们不能期望它有良好的表现。
3. 去噪
自动编码器的一个常见应用是去除样本中的噪声,特别是去除计算机生成图像中有时会出现的斑点。我们以 MNIST 数据集为例,为图像添加随机噪声。具体操作是,在每个像素处从均值为 0 的高斯分布中选取一个值,该值可能为正也可能为负,将其添加到像素值中,然后将结果裁剪到 0 到 1 的范围内。
我们的目标是将添加噪声后的数字图像输入到训练好的自动编码器中,使其输出像原始无噪声图像
超级会员免费看
订阅专栏 解锁全文

17

被折叠的 条评论
为什么被折叠?



