Chapter 5 基于方面的情感分析_Aspect-based Sentiment Analysis
随着各章的自然发展,本章应侧重于 短语和 单词级别的情感分类,因为上两章是关于文档和句子级别的分类。但是,我们将该主题留给下一章。在本章中,我们将重点放在 基于方面的情感分析上,因为是时候解决第2章中定义的全部问题了,许多短语和单词的情感都取决于方面的上下文。
正如我们在前两章中讨论的那样,在文档级别或句子级别对意见文本进行分类通常不足以用于应用,因为它们无法识别观点目标或给目标分配情感。即使我们假设每个文档都评估一个实体,关于该实体的正面观点文档也不意味着作者对实体的各个方面都持有正面意见。同样,负面观点文档并不意味着作者对所有方面都持负面态度。为了进行更完整的分析,我们需要发现各个方面,并确定每个方面的情绪是正面还是负面。
要提取这些细节,我们进入方面级别,这意味着我们需要第2章的完整模型,即基于方面的情感分析(或观点挖掘),在(Hu和Liu,2004年)中也称为基于特征的观点挖掘。注意,如第2章所述,观点目标被分解为实体及其各个方面。 GENERAL方面在结果中表示实体本身。因此,基于方面的情感分析涵盖了实体和方面。它也引入了一系列问题,这些问题需要更深的NLP能力并产生更丰富的结果。
回忆一下,在方面级别,目标是发现给定文档d中的每个五元组(e_i,a_ij,s_ijkl,h_k,t_l)(实体,方面,情感,持有者,时间)。为了实现这个目标,必须执行六个任务。本章主要关注下面列出的两个核心任务。研究人员对它们进行了广泛的研究。其他任务也将涉及,但相对简短。
-
方面提取:此任务提取被评价的方面。例如,在句子“The voice quality of this phone is amazing”中,方面是“this phone”所代表的实体的“voice quality”。请注意,“this phone”此处未表示GENERAL方面,因为评价不是针对整个电话,而只关其语音质量。但是,句子“I love this phone”对电话进行了整体评估,即以“this phone”代表的实体的GENERAL方面进行评估。当我们谈论一个方面时,请记住,我们必须知道它属于哪个实体。在下面的讨论中,我们常常为了表述简单而省略实体。
-
方面情感分类:该任务确定不同方面的观点是正面、负面还是中立的。在上面的第一个示例中,对“语音质量”方面的看法是肯定的。第二,对GENERAL方面的看法也很积极。
请注意,在应用中可能会给出观点目标,因为用户仅对这些特定目标(例如BMW和Ford品牌)感兴趣。在这种情况下,我们不需要执行实体或方面提取,而只需确定目标上的情感即可。
5.1 方面情感分类
我们首先研究第二个任务,即确定句子中每个方面表达的情感取向。主要有两种方法,即监督学习方法和基于词典的方法。
对于监督学习方法,适用于第4章中讨论的用于句子级和从句级情感分类的基于学习的方法。在(Wei和Gulla,2010年)中,还提出了一个层次分类模型。但是,关键问题是如何确定每个情感表达的范围,即它是否涵盖了句子中感兴趣的aspect。当前的主要方法是使用句法分析来确定依赖性和其他相关信息。例如,在(Jiang et al。,2011)中,依赖分析用于生成一组方面依赖的特征以进行分类。 (Boiy和Moens,2009)中也使用了一种相关方法,该方法根据特征相对于解析树中目标方面的位置对每个特征进行加权。对于比较性句子,可以使用“ than”或其他相关词来分割句子(Ding,Liu和Zhang,2009; Ganapathibhotla和Liu,2008)。
监督学习取决于训练数据。正如我们在3.4节中讨论的那样,从一个域中的标记数据训练出来的模型或分类器在另一个域中的表现通常很差。尽管研究人员已经研究了领域适应(或迁移学习)(第3.4节),但该技术还很不成熟,并且当前的方法也主要用于文档级别的情感分类,因为文档篇幅较长并且包含的分类特征比个别句子或从句。因此,监督学习很难扩展到大量的应用领域。
基于词典的方法可以避免某些问题(Ding,Liu和Yu,2008年; Hu和Liu,2004年),并且已被证明在许多领域中表现良好。此类方法通常不受监督。他们使用情感词典(包含情感词,短语和成语的列表),复合表达式,观点规则(第5.2节)和(可能)句子分析树来确定句子中每个方面的情感取向。他们还考虑了shifters(情绪转移器)、but-clauses(但是-从句)(见下文)和许多其他可能影响情感的结构。当然,基于词典的方法也有其自身的缺点,

最低0.47元/天 解锁文章





