记忆增强网络:原理与应用
1. 引言
在深度学习领域,记忆增强网络是一类重要的模型,它借鉴了图灵机的思想,让控制器通过读写头与内存进行交互。然而,传统的内存读写操作是离散且不可微的,这限制了基于梯度的算法的应用。为了解决这个问题,研究引入了模糊操作,使得读写操作连续、可微,从而能够使用诸如随机梯度下降等基于梯度的算法进行有效学习。
2. 神经图灵机(Neural Turing Machines, NTM)
2.1 基本概念
将内存 $M$ 视为一个二维矩阵 $(N \times M)$,其中 $N$ 行对应内存位置,$M$ 列用于存储每行的值。
2.2 读写操作
- 读操作 :
- 注意力机制用于移动读写头,注意力机制可表示为长度为 $N$ 的归一化权重向量 $w_t$,用于在给定时间 $t$ 从内存 $M_t$ 中读取内容。权重向量的单个元素记为 $w_t(i)$,其约束条件为:
- $\forall i \in {1…N} \quad 0 \leq w_t(i) \leq 1$
- $\sum_{i=1}^{N} w_t(i) = 1$
- 读头返回长度为 $M$ 的读向量 $r_t$,它是内存行的线性组合,由权重向量缩放得到:
- $r_t \leftarrow \sum_{i=1}^{M} w_t(i)M_t(i)$
- 由于上述方程可微,整个读操作是可微的。
超级会员免费看
订阅专栏 解锁全文
911

被折叠的 条评论
为什么被折叠?



