解读-Stacked Capsule Autoencoders-堆叠的胶囊自编码器-NeurIPS2019

最新推荐文章于 2023-09-20 09:24:57 发布

原创

最新推荐文章于 2023-09-20 09:24:57 发布 · 1.8k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习 #无监督学习 #最大似然

title: Stacked Capsule Autoencoders-堆叠的胶囊自编码器
original link：https://senyang-ml.github.io/2020/02/11/stacked-capsule-autoencoders/
date: 2020-02-11 19:18:17

1. 引言

《stacked capsule autoencoders》使用无监督的方式达到了98.5%的MNIST分类准确率。
Stacked Capsule Autoencoders 发表在 NeurIPS-2019，作者团队阵容豪华。可以说是官方capsule的第3个版本。前两个版本的是：

当然还有最早的Transforming Auto-encoders，发表在2011年ICANN，论文第一次引入“capsule”的概念。值得一提的是，这篇论文的作者是Hinton、Alex Krizhevsky等人，对，是AlexNet的Alex。原来Alex本人在2012年发表AlexNet之前在研究这种“奇怪”的东西。2011年的他可能没想到，第二年的他们，为了参与ImageNet大规模数据集图像识别挑战赛而设计的一款基于的传统CNN的AlexNet，引爆了接下来已经持续7年之久的“Deep Learning”潮流，现如今CVPR 2020投稿量都过10000了，是谁惹得“祸“的还不清楚吗？

2. 概念

从2017年开始， Hinton等人研究的Capsule Network得到了深度学习社区的大量关注。可以说Capsule Network在反思CNN的一些固有偏见，比如CNN的学习过分强调不变性（invariant ）特征的学习，数据增强也服务于这一目的。而这样做，实际上，忽略了一个真实世界中的事实：

1）物体-部件关系（Object-Part-relationship）是视角不变的（viewpoint invariant），
2）物体-观察者（Object-Viewer-relationship）是视角同变性（viewpoint equivariant）的。

equivariant： $\forall_{T \in \mathcal{T}} Tf(\mathbf{x}) = f(T\mathbf{x})$
invariant： $\forall_{T \in \mathcal{T}} Tf(\mathbf{x}) = f(T\mathbf{x})$