AETvs. AED:UnsupervisedRepresentationLearningbyAuto-Encoding Transformations rather than Data
论文链接:https://arxiv.org/abs/1901.04596
基于变换的无监督训练
一个是以“预测变换”作为自监督信号进行训练的模型,代表是Rotation Net (RotNet)[1] 和AutoEncoding Transformations (AET) [2,3]。
- RotNet [1]通过对输入图像的旋转角度进行分类,实现对图像的特征学习
- AET[2,3]它的思想是颠覆了传统AutoEncoder重构数据的方法(Autoencoding Data, AED),而是通过重构变换(transformation)来实现特征的学习。下面的图对比了这两种模型(AED vs. AET)。按照不同的训练loss,有进一步分成了最小化MSE的第一代v1 [2],和最小化测地线距离的 v2版本[3]
在这里插入图片描述
- 特别的,在最新的AETv2中,利用在变换空间所构成的李群(Lie Group)中,通过利用在李群所构建的流型(manifold)上计算并最小化预测与采样的groundtruth变换直接的误差,可以进一步显著提高AET的性能。这点不能理解:对所有合法变换所构成的李群(Lie group of transformations),它对应的是一个弯曲的流型,而非一个平坦的欧式变换空间,这点如下图所示。所以利用MSE来计算变化的预测误差显然是不合理