论文笔记：Graph Attention Network with Memory Fusion for Aspect-levelSentiment Analysis-优快云博客

本文链接：https://blog.youkuaiyun.com/u013852115/article/details/119678129

该研究提出了一种带有记忆融合的图注意力网络（GATM）来改进方面级情感分析。针对传统方法忽视词汇间的句法关系导致错误关注的问题，GATM通过图注意机制赋予边不同的权重，利用句法约束减少无关单词的影响。同时，卷积层捕获多词表达的局部信息，记忆融合层整合各种特性并动态分配权重。实验结果显示，该方法在五个数据集上优于现有技术，提高了情感分析的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Graph Attention Network with Memory Fusion for Aspect-level Sentiment Analysis（方面级情感分析的带有记忆融合的图注意力网络）

1 摘要

方面级情感分析（ASC）预测文本或评论中每个特定方面术语的情感极性。最近的研究使用基于注意力的方法能有效提升方面级情感分析的表现。这些方法忽略了方面和它相应的上下文单词之间的句法关系，导致模型错误地关注语法上不相关的单词。一个提出的解决方案，图卷积网络(GCN)，不能完全避免这个问题。但它的确包含了关于语法的有用信息，它为所有的相关单词之间的边分配了相同的权重。它仍然可能通过图卷积传播的迭代错误地将不相关的单词与目标方面联系起来。在这个研究中，提出了一个带有记忆融合的图注意力网络，通过赋予边缘不同的权值来扩展GCN的思想。句法约束可以用来阻止不相关单词的图卷积传播。采用卷积层和记忆融合技术来学习和利用多字关系并比较不同的单词权重来进一步提高性能。在五个数据集上的实验表明，该方法比现有的方法具有更好的性能。本文的代码在https://github.com/YuanLi95/GATT-For-Aspect.

2 引言

本文提出的模型从两个方面扩展了图卷积网络的想法。首先，图注意机制为边分配不同的权重，所以可以施加语法约束来阻止语法无关的单词传播目标方面。第二，一个卷积操作被用来利用多词关系抽取局部信息，例如“not good”，“far from perfect”，可以进一步提高性能。为了集成所有特性，使用了一个记忆融合层（类似一个记忆网络），根据单词对最终分类的贡献分配不同的权重。
Yao et al. (2019)将图卷积网络引入情绪分类任务和取得了良好的表现。随后，Zhang et al. (2019)提出在句子的依赖树上使用GCN抽取长范围的句法信息。

3 带有记忆融合的图注意网络

此算法主要由四个部分组成：一个文本编码器，一个图注意层，一个卷积层，和一个记忆融合层，如图2.
图2：带有记忆融合的图注意网络的整体架构

图2：带有记忆融合的图注意网络的整体架构
文本编码器使用一个vanilla bidirectional LSTM来表现原文的特征。它包含一个word embedding 层和一个BiLSTM层去产生一个文本的隐藏表示。使用这个隐藏表示作为输入，图注意层(G-ATT)在依赖树上训练以单词之间显式的结构化信息。卷积层被用来提取情感单词周围的局部信息，可以动态处理非单字的单词方面，像“not good”和“far from perfect”，而不是只提取它们向量的平均值。为了合并所有特性，我们采用了一个类似memory network的记忆融合层，能够根据文本单词对最终分类的贡献分配不同的权重。详细描述如下。

3.1 文本编码器

给出一个句子 $x=[x1,x2,...,xτ+1,...,xτ+m,...,xn]x=[x_{1},x_{2},...,x_{\tau +1},...,x_{\tau +m},...,x_{n}]$ 包含n个单词，目标方面从第 $(τ+1)(\tau + 1)$ 个单词开始，长度为m。使用BiLSTM作为文本编码器，这样可以表达句子中的长距离依赖。我们平均前向和反向的隐藏表示，以获取上下文表示，定义如下，
$(h→iE,c→iE)=LSTM(xi,h→i−1E,h→c−1E)(1)(\overrightarrow{h}^E_i , \overrightarrow{c}^E_i)=LSTM(x_i,\overrightarrow{h}^E_{i-1},\overrightarrow{h}^E_{c-1}) \tag{1}$ $(h←iE,c←iE)=LSTM(xi,h←i+1E,h←c+1E)(2)(\overleftarrow{h}^E_i , \overleftarrow{c}^E_i)=LSTM(x_i,\overleftarrow{h}^E_{i+1},\overleftarrow{h}^E_{c+1}) \tag{2}$ $hi=(hi→⊕hi←)/2(3)h_i=(\overrightarrow{h_i}⊕\overleftarrow{h_i})/2 \tag{3}$
⊕是矩阵相加操作。 $hi→\overrightarrow{h_i}$ ， $hi←\overleftarrow{h_i}$ ， $h_i$ 分别是前向，后向，和输出表征。所以文本编码器的最终表征可以表示为 $HE=[h1E,h2E,...,hτ+1E,...,hτ+mE,...,hnE]H^E=[h^E_1,h^E_2,...,h^E_{\tau +1},...,h^E_{\tau +m},...,h^E_n]$