[解读] Capsules with Inverted Dot-Product Attention Routing

最新推荐文章于 2025-02-25 10:01:15 发布

天在那边

最新推荐文章于 2025-02-25 10:01:15 发布

阅读量926

点赞数

分类专栏：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weipf8/article/details/106891873

版权

机器学习同时被 2 个专栏收录

24 篇文章

订阅专栏

24 篇文章

订阅专栏

本文提出了一种名为InvertedDot-ProductAttention的新型胶囊网络路由算法，该算法通过反向的点积注意力机制，使高层级胶囊竞争低层级胶囊的注意力，以决定信息流的方向。与传统的动态路由和EM路由相比，新算法引入了并发迭代路由，加速了运算并解决了梯度消失问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文提出一种新的胶囊网络路由算法, 主要有以下三个亮点: 首先通过一个反向的点积注意力来设计路由, 其次使用层规范化方法, 最后使用并发迭代路由的方法来取代序列式的迭代.

论文链接: https://arxiv.org/abs/2002.04764v2

开源代码:

https://github.com/apple/ml-capsules-inverted-attention-routing

https://github.com/yaohungt/Capsules-Inverted-Attention-Routing

相关工作

在原始的路由算法中, 每个较低级别(前一层)的胶囊投票给每个较高级别(后一层)的胶囊状态. 较高级 (父级) 的胶囊将汇总选票, 更新其状态, 并使用更新后的状态来解释每个下级胶囊. 被解释清楚的那些最终将更多的信息流向该父级胶囊. 重复此过程, 在选票聚合过程中来确定哪些胶囊被路由到那个父级胶囊. 这个过程类似于期望最大化 (EM) 算法的 M 步和 E 步的迭代方式, 推断隐藏单元的状态和路由概率.

动态路由 (Sabour et al., 2017) 和 EM 路由 (Hinton et al., 2018) 都可以看作上述方案的变体, 它们具有基本的迭代结构, 但在细节方面有所不同, 例如其胶囊设计, 如何汇总票数, 以及是否使用非线性函数.

本文方法

本文介绍一个新颖的路由算法, 被称为 Inverted Dot-Product Attention, 就像一个反向的注意力机制, 高等级的胶囊通过竞争来争夺低等级胶囊的注意力.

路由概率直接取决于父胶囊 (来自上一个迭代步骤) 与子胶囊对父胶囊的投票 (在当前迭代步骤中) 之间的一致性.

设第 $L$ 层第 $i$ 个胶囊为 $\mathbf{p}_i^{L}$ , 维度为 $d_L$ . 路由算法如下:

在这里插入图片描述

其中 $\mathbf{W}_{ij}^L$ 是一个可学习的权重.

推理算法如下:

$\mathbf{I}$ 是输入的图片样本. 其中第 7-9 行是一个并发的路由机制, 一方面加快运算速度, 另一方面能够改进梯度消失的问题. 这个问题是因为迭代次数过多, 间接导致网络层次加深. 并发路由的原理如下图:

在这里插入图片描述

路由过程如图中灰色箭头所示.

参考

Sara Sabour, Nicholas Frosst, and Geoffrey E Hinton. Dynamic routing between capsules. In Advances in neural information processing systems, pp. 3856–3866, 2017.
Geoffrey E Hinton, Sara Sabour, and Nicholas Frosst. Matrix capsules with em routing. 2018.

博客等级

码龄14年

29
原创

271
点赞

1303
收藏

98
粉丝

关注

私信

热门文章

分类专栏

最新评论

卷积神经网络 (CNN) 基本原理和公式
weixin_42951632: 感谢大佬，对我教学特别有用。一些知识点我会融入到教学当中。
卷积神经网络 (CNN) 基本原理和公式
weixin_50731955: 大佬你说的应该是对的，但是我不太理解这个加和是怎么操作的，是对应元素相加吗，那加出来的这个特征图，是个灰度图片吗还是什么
C/C++以链接库的形式调用Go代码
BaoLong6: 第二个应该是动态链接库吧
卷积神经网络 (CNN) 基本原理和公式
呆丘: 大佬我悟了
卷积神经网络 (CNN) 基本原理和公式
沉默的羔羊君: 引用「上图是对一个特征图采用一个卷积核卷积的过程, 为了提取更多的特征, 可以采用多个卷积核分别进行卷积,」我觉得这点不对。按照斯坦福的cs231n课件中说的：7x7x3的图片，如果这一层的卷积大小为3x3x3，输出的应该是3x3x3.输出特征的深度是和卷积核的数量一致的！也就是说，如果卷积核大小为3x3x12，输出的应该是3x3x12. 以下是我的理解：输出深度只和卷积核数量有关，说明每个卷积核都和每个通道的矩阵（就是每个通道的7x7矩阵）卷积了，然后进行加和生成了一个3x3矩阵。然后下一层的卷积核负责卷积的应该是上一层的输出，而不是7x7x3的原图片。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。