NLP中的全局注意力机制（Global Attention）

最新推荐文章于 2025-03-25 09:33:46 发布

红雨瓢泼

最新推荐文章于 2025-03-25 09:33:46 发布

阅读量7.6k

点赞数 13

分类专栏： NLP 文章标签： nlp attention global attention

本文链接：https://blog.youkuaiyun.com/kingsonyoung/article/details/93118149

版权

NLP 专栏收录该内容

2 篇文章

订阅专栏

最近在看一些Event Extraction和Event Detection的论文，看到其中有些论文会用到Attention机制，在阅读Attention相关论文的时候，对于论文中的一些符号表示，钻了一些牛角尖，所幸最后还是理解了
关于Attention机制的论文：Effective Approaches to Attention-based Neural Machine Translation

全局注意力机制（Global Attention）模型如下：
在这里插入图片描述
先直接说明模型图中各个变量的含义，再慢慢分析Global Attention机制：

$h_{s}$ ：表示LSTM中s时刻得到的hidden state
$h_{t}$ ：表示LSTM得到的目标hidden state
$a_{t}(s)$ ：表示s时刻的hidden state在所有hidden state中所占的权重， $a_{t}(s)$ 是一个标量
$a_{t}$ ：将所有t个时刻的hidden state的权重组合起来，便得到了 $a_{t}$ ， $a_{t}$ 的长度与时间步长相同，即与一句话中的单词的个数相同
$c_{t}(s)$ ：将s时刻的hidden state $h_{s}$ 与其权重 $a_{t}(s)$ 相乘，便得到s时刻(即第s个单词)的上下文向量 $c_{t}(s)$
$c_{t}$ ：将全部单词的上下文向量，求平均值或者求和，便可以得到由输入的单词组成的一句话的句向量

在LSTM模型中，依次输入一句话中的各个单词的词向量，由LSTM的结构可知，每一个时刻s(每输入一个单词)都会得到一个hidden state $h_{s}$ ，当到达最后一个时刻t时，会得到target hidden state $h_{t}$ 。在之前的做法中，只会用到LSTM最终产生的 $h_{t}$ ，而LSTM中间产生的一系列 $h_{s}$ 并不会被用上。这就会产生一些问题：

模型对于一句话中的每个单词都是“一视同仁”的，但当人在读一句话的时候，往往对于某些关键的单词会给予更多的关注。
LSTM是长短时记忆网络，其中包含的遗忘门，对于先进入网络的单词，忘记的程度更大，所以该网络更加倾向于记住后输入网络的单词，也就是说得到的向量 $h_{t}$ 会过多地关注一句话中结尾的单词

以上问题，可以使用全局注意力机制(Gobal Attention)来解决。

Gobal Attention的目的：Gobal Attention的目的是为了在生成上下文向量（也可以认为是句向量） $c_{t}$ 时将所有的hidden state都考虑进去。Attention机制认为每个单词在一句话中的重要程度是不一样的，通过学习得到一句话中每个单词的权重。
如何衡量每个单词在一句话中的权重呢？ 对于第s个单词，它在一句话中的权重，是根据s时刻的hidden state $h_{s}$ 与 $h_{t}$ 计算而得到的。第s个单词的权重记做 $a_{t}(s)$