注意力与记忆增强网络技术解析
1. 注意力机制
注意力机制在自然语言处理(NLP)和自然语言理解(NLU)领域有着广泛的应用,下面介绍几种不同类型的注意力机制。
1.1 局部注意力
在编码器 - 解码器网络中,局部注意力的逐步计算过程如下:
- 首先计算注意力权重矩阵 $A$:
- $A = softmax(V_a \tanh(W_a H^{\top}))$ (9.12)
- 然后计算上下文向量 $C$:
- $C = AH$ (9.13)
为了鼓励注意力向量的多样性并惩罚冗余,使用正交性约束作为正则化技术:
- $\Omega = |(AA^{\top}-I)|^2_F$ (9.14)
1.2 键值注意力
键值注意力将隐藏层拆分为键和值,键用于注意力分布,值用于上下文表示。隐藏向量 $h_j$ 被拆分为键 $k_j$ 和值 $v_j$:$[k_j;v_j] = h_j$。长度为 $L$ 的注意力向量 $a_i$ 由以下公式给出:
- $a_i = softmax(v_a \tanh(W_1[k_{i - L}; \cdots ; k_{i - 1}] + W_2 1^{\top}))$ (9.15)
其中 $v_a, W_1, W_2$ 是参数。上下文表示为:
- $c_i = [v_{i - L}; \cdots ; v_{i - 1}]a^{\top}$ (9.16)
1.3 多头自注意力
多头自注意力在机器翻译任务中取得了很好的效果。其计算步骤如下:
1. 词嵌入
超级会员免费看
订阅专栏 解锁全文
1005

被折叠的 条评论
为什么被折叠?



