深度学习中的自编码器与词嵌入技术
1. 去噪自编码器:增强鲁棒表示
人类的感知能力对噪声具有惊人的抵抗力。例如,即使图像中一半的像素被损坏,我们仍然能够识别出数字。从概率的角度来看,当我们接收到图像像素的随机样本时,只要有足够的信息,大脑就能以最大概率推断出像素所代表的真实内容。
2008年,研究人员引入了去噪自编码器,其基本原理是将输入图像中固定百分比的像素置为零,得到损坏版本的输入 $C_X$。去噪自编码器与普通自编码器的唯一区别在于,编码器网络的输入是损坏后的 $C_X$ 而非原始输入 $X$。这样,自编码器被迫学习一种对损坏机制具有抗性的代码,能够通过缺失信息进行插值,以重建原始的未损坏图像。
从几何角度来看,对于一个具有各种标签的二维数据集,特定类别的数据点集合 $S$ 存在一种潜在的统一几何结构,即流形。自编码器在学习通过瓶颈(代码层)重建数据时,会隐式地学习这个流形。去噪操作会人为地扩展数据集,使其不仅包含流形,还包括流形周围空间中的所有点。自编码器的任务是将这些扩展的数据点映射回流形,从而近似 $S$ 的潜在流形。
以下是构建去噪自编码器的代码示例:
import tensorflow as tf
def corrupt_input(x):
corrupting_matrix = tf.random_uniform(shape=tf.shape(x),
minval=0,maxval=2,dtype=tf.int32)
return x * tf.cast(corrupting_matrix, t
超级会员免费看
订阅专栏 解锁全文
1961

被折叠的 条评论
为什么被折叠?



