Transforming Autoecoders

Transforming Autoecoders

Hinton G E , Krizhevsky A , Wang S D . Transforming Auto-Encoders[C]// Artificial Neural Networks and Machine Learning - ICANN 2011 - 21st International Conference on Artificial Neural Networks, Espoo, Finland, June 14-17, 2011, Proceedings, Part I. Springer, Berlin, Heidelberg, 2011.

传统的自编码结构:
在这里插入图片描述传统自编码的主要作用是通过维度的压缩,提取数据中重要的部分,寻找数据的一个简单表示,这种简单表示可能蕴含了一些高层的语义、结构含义,同时使用压缩后的特征直接代表数据也是一种很好的数据压缩方法。

这篇文章提出了一种变换自编码(Transforming Autoecoders),相当于把自编码中的“压缩后的特征”限定为我们想要的特征,比如位移、旋转等,其结构如下:
在这里插入图片描述
被橘色方框框选的结构称为一个“capsule”(胶囊),上图共有三个capsule,用于提取一个二维图像的x方向、y方向的位移特征。红色的部分表示recognition units(识别单元),输出p、x、y,可以认为x、y是这个unit对于当前图像位置的一个估计,p表示对这个估计的确信程度,△x和△y是人为输入值,表示我们希望的位移,相加得到x+△x和y+△y,输入到generation units(生成单元)。

generation units根据输入的x+△x和y+△y生成我们期望得到的位移后的图片,假设使用mnist数据集,目标输出尺度为2828=784,那么每个generation unit都有一个1784维度的权重把这个unit与输出相连,1个capsule有4个generation units,那么就有4*784维度的权重把这个capsule与输出相连,这些权重蕴含了我们需要的重构特征。文章给出了这些权重的结果图:

在这里插入图片描述
这个结果是采用了30个capsules,每个capsule有20个generation units,上图显示了7个capsule对应的20个generation units所学习到的权重,可以看到每个capsule都学习到了输入数据的一些局部特征,20个generation units表征类似的结构,且会有一定的位移变化。30个capsules把各自表征的结构组合起来,就形成了位移后的图片。

文章又进行了更加复杂的图像变换实验,使用3*3矩阵,表征位移、旋转、尺度缩放和错切,这是自编码重构结构,和generation units的权重图:
在这里插入图片描述
可以看到,权重图会包含一些旋转变化。

值得注意的点

这种transforming autoencoder每次只能编码一个样子的数字,所以对不同值或者不同长相的数字都需要进行单独的编码。
在这里插入图片描述
可以看到这个自编码器的“压缩后的特征”只有一个三维的特征:p,x,y,不包含原始数据的其他纹理、结构特征,所以一次只能学习一种样子的数字,相当于所给的训练集的唯一变量是位移。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值