Hierarchical Attention Networks for Document Classification
(ACL2016)
动机
在分类任务中,句子中包含的每个词语相对于分类任务的重要性并不一样,比如在IMDB影评数据集中, like, amazing, terrible 这样的词语更能够决定句子的情感。一篇document也由多个句子组成,在篇章级别的分类时,每个句子的重要性也不相同。所以作者提出一种使用self-attention的层次模型来给单词或者句子赋予权重,以提升分类的准确性。
模型
网络包含四个层次:
1、word sequence layer
2、word-attention layer
3、sentence sequence layer
4、sentence-attention layer
编码层
包括word sequence layer,sentence sequence layer,其作用分别是对句子和篇章编码,直接使用BI-GRU实现。
注意力机制
该模型与上次所说的层级门结构篇章情感分类很相似,不同之处在于有了uw(词语级别的context vector)和us(句子级别的context vector), 利用它们产生attention value, 就可得出每个词语或句子的任务相关程度。
本文中self-attention的实现方式:
把每一个句子用双向GRU进行表示,再把句子中的每个词语的隐层向量表示(hit)经过如下变换实现self-attention:
式1:把某个词的