自然语言处理之Attention机制
一说Attention,一些人就说seq2seq,self-attention,transformer,把attention比作nlp方向的核武器。但是实际上attention更早出现于CV领域,之后2016年在Relation Extraction(至少有这个)方向上有着较早的应用。直到2017年才被大规模应用于Seq2Seq model。因此,attention并非只应用于Seq2Seq model,也非nlp独有。本博文针对网络上介绍attention只介绍seq2seq的现象,结合RE领域的attention介绍模型中attention的应用,之后再介绍Seq2Seq model怎么结合attention。以免脱离了Seq2Seq model,就不知道怎么用attention了。
Attention机制的核心思想是,对于输入的数据,无论是文本序列还是图像数据,进行一系列加权,使重要特征更加突出。Self-attention (transformer)机制的核心思想是基于attention,使用attention模型代替RNN计算表示向量,从而解决平行运算、长句记忆的问题。
怎么在模型中加入注意力——以Relation Extraction为例
Relation Extraction是NLP方向的老任务了,在命名实体识别(Named Entity Recognition)的基础上,提取(分类)得到句子中命名实体之间的关系。我们通过三元组来表示关系,如<北京,是首都,中国>。Relation Extraction