注意力与记忆增强网络:原理、应用与实现
在自然语言处理(NLP)和语音研究领域,注意力机制和记忆增强网络发挥着至关重要的作用。本文将深入探讨多种注意力机制和记忆增强网络的原理、应用及操作步骤。
1. 注意力机制
1.1 局部注意力
在编码器 - 解码器网络中,局部注意力的逐步计算过程如下:
1. 计算注意力权重矩阵 (A):
- (A = \text{softmax}(V_a \tanh(W_a H^{\top}))) (9.12)
2. 计算上下文向量 (C):
- (C = AH) (9.13)
为了鼓励注意力向量的多样性并惩罚冗余,使用正交性约束作为正则化技术:
- (\Omega = |(AA^{\top} - I)|_F^2) (9.14)
1.2 键值注意力
键值注意力将隐藏层拆分为键和值,键用于注意力分布,值用于上下文表示。隐藏向量 (h_j) 拆分为键 (k_j) 和值 (v_j):([k_j; v_j] = h_j)。长度为 (L) 的注意力向量 (a_i) 由下式给出:
- (a_i = \text{softmax}(v_a \tanh(W_1[k_{i - L}; \cdots ; k_{i - 1}] + W_2 1^{\top}))) (9.15)
其中 (v_a, W_1, W_2) 是参数。上下文表示为:
- (c_i = [v_{i - L}; \cdots ; v_{i - 1}] a^{\top}) (9.16)
1.3 多头自注意力
多头自注意力在机器翻译等任务中
超级会员免费看
订阅专栏 解锁全文
853

被折叠的 条评论
为什么被折叠?



