情感分析与观点挖掘第二章笔记/SentimentAnalysis-and-OpinionMining by Bing Liu

在本章中,我们定义了情感分析或观点挖掘问题的抽象概念。从研究的角度来看,这种抽象为我们提供了问题的陈述,并使我们能够看到构成情感分析问题的大量相互关联的子问题。人们常说,如果我们无法构造问题,那么我们很可能不理解问题。因此,定义的目的是从复杂而令人生畏的非结构化自然语言文本中抽象出一种结构。它们还用作统一各种现有研究方向的通用框架,并使研究人员能够通过利用子问题的相互关系来设计更可靠,更准确的解决方案技术。从实际应用的角度来看,这些定义使从业人员可以看到在实际系统中需要解决哪些子问题,它们如何关联以及应该产生什么输出。

与事实信息不同,观点和情感具有重要特征,即,它们是主观的。因此,重要的是要检查来自许多人的观点集合,而不是仅检查来自一个人的单个观点,因为这样的观点仅代表该单个人的主观观点,通常不足以应用。由于网络上收集了大量的观点,因此需要某种形式的观点摘要(Hu and Liu,2004)。问题定义指出可能需要哪种摘要。除了问题定义外,本章还将讨论一些相关的概念,例如主观性和情感。

请注意,在本章甚至整本书中,我主要以评论和评论中的句子为例来介绍思想和定义关键概念,但是这些思想和由此产生的定义是通用的,适用于所有形式的正式和非正式观点文本例如新闻文章,tweet(Twitter帖子),论坛讨论,博客和Facebook帖子。由于产品评论高度集中且观点丰富,因此与其他形式的观点文本相比,它们使我们能够更清楚地看到不同的问题。从概念上讲,它们之间没有区别。这些差别主要是表面的,在处理它们的困难程度上也不同。例如,Twitter帖子(推文)简短(最多140个字符)且非正式,并且使用许多网络俚语和表情符号。实际上,由于篇幅限制,Twitter帖子更易于分析,因为作者通常直截了当。因此,通常更容易实现高情感分析的准确性。评论也更容易,因为它们高度集中,几乎没有无关的信息。论坛讨论可能是最难处理的,因为那里的用户可以讨论任何内容,也可以互相交流。就难度而言,还存在不同应用程序域的维度。有关产品和服务的观点通常更易于分析。由于复杂的话题和情绪表达,讽刺和反语情绪,社会和政治讨论要困难得多。

2.1 问题定义

如第一章开头所述,情感分析主要研究表达或暗示正面或负面情感的观点。因此,本节定义了这种情况下的问题。

2.1.1 观点定义

我们使用以下有关佳能相机的评论来介绍这个问题(每个句子都有一个ID号,以供参考):

通过这个评论,我们注意到一些重要点:

  1. 这次回顾对佳能G12相机有很多正面和负面的看法。句子(2)对佳能相机整体表示正面评价。句子(3)对其照片的质量表达了积极的看法。句子(4)对其电池寿命表示肯定。句子(5)对相机的重量表示负面观点。从这些观点中,我们可以得出以下重要发现:
    Observation: 观点包含两个关键组成部分:目标g和目标上的情绪s,即
    ( g , s ) (g, s) (g,s),
    其中g可以是表达观点的任何实体或实体的某个方面,而s是正面,负面或中立的情感,或表示情感力度/强度的数字评分(如1~5星)。积极,消极和中立被称为情感(或观点)取向(或极性)。
    例如,句子(2)中观点的目标是佳能G12,句子(3)中观点的目标是佳能G12的画质。目标在文学中也称为topic主题。

  2. 这条评论来自两个人的观点,这两个人被称为观点来源或观点持有者(Kim and Hovy,2004; Wiebe,Wilson和Cardie,2005)。句子(2),(3)和(4)中观点的持有者是评论的作者(“约翰·史密斯”),但对于句子(5),则是作者的妻子。

  3. 评论日期为2011年9月10日。在实践中,该日期很重要,因为人们经常想知道观点是如何随时间和观点趋势而变化的。

我们现在准备将观点定义为四元组。
Definition (Opinion): 一个观点是一个四元组
( g , s , h , t ) (g, s, h, t) (g,s,h,t),
其中g是观点(或情绪)的目标,s是关于目标的情绪,h是观点持有者,t是表达观点的时间。

这个定义虽然很简洁,但在实践中可能不容易使用,尤其是在产品,服务和品牌的在线评论领域,因为目标的完整描述可能很复杂,甚至可能不在同一句话中出现。例如,在句子(3)中,观点对象实际上是“佳能G12的图像质量”,但是该句子仅提及“图像质量”。在这种情况下,观点目标不只是“图片质量”,因为在不知道句子正在评估佳能G12相机的图片质量的情况下,仅句子(3)中的观点就没有多大用处。在实践中,目标通常可以以结构化的方式分解并描述为多个级别,这极大地促进了观点的挖掘和以后挖掘观点结果的使用。例如,“佳能G12的图片质量”可以分解为一个实体和该实体的一个属性,并以一对来表示:
(Cannon-G12,图片质量)
让我们使用术语“实体”来表示被评估的目标对象。实体可以定义如下(Hu和Liu,2004; Liu,2006和2011)。

Definition (entity): 一个实体e是产品,服务,主题,问题,人员,组织或事件。用一对e:(T, W)进行描述,其中T是其组成部分,子组成部分等层次结构,W是e的一组属性。每个部分或子部分也都有自己的一组属性。

Example 1: 特定型号的相机是一个实体,如Canon G12。它具有一组属性,例如图像质量,尺寸和重量,以及一组零件,例如镜头,取景器和电池。电池还具有自己的一组属性,例如电池寿命和电池重量。主题也可以是一个实体,例如,税收增加,其子部分包括“穷人的税收增加”,“中产阶级的税收增加”和“富人的税收增加”。

此定义本质上描述了基于组成部分关系的实体的层次分解。根节点是实体的名称,例如上述评论中的佳能G12。所有其他节点都是组件和子组件等等。可以在任何节点和该节点的任何属性上表达观点。

Example 2: 在我们上面的例子评论中,句子(2)表达了对实体佳能G12相机作为一个整体的积极看法。第(3)句表达了对相机图像质量属性的肯定。显然,一个人也可以对相机的组成部分或零部件表达观点。

这个实体作为任意数量级别的层次结构,需要一个嵌套关系来表示它,这对于应用程序来说通常太复杂了。主要原因是由于NLP是一个非常困难的任务,在不同层次的细节上识别实体的部分和属性是非常困难的。大多数应用程序也不需要如此复杂的分析。因此,我们将层次结构简化为两个级别,并使用术语aspects(方面)来表示部分和属性。在简化树中,根节点仍然是实体本身,但是第二级(也是叶级)节点是实体的不同方面。这种简化的框架是实际情感分析系统中通常使用的框架。

请注意,在研究文献中,实体也称为对象,而方面也称为特征(如产品特征)。但是,此处的特征可能会与机器学习中使用的特征相混淆,在机器学习中,特征意味着数据属性。为避免混淆,近年来,方面(aspects)变得越来越流行。请注意,一些研究人员还使用术语“facets方面”,“attributes属性”和“topics主题”,在特定的应用程序中,基于应用程序域约定,实体和方面也可以称为其他名称。

分解观点目标后,我们可以重新定义观点(Hu and Liu,2004; Liu,2010)。

Definition (opinion): 观点是一个五元组, ( e i , a i j , s i j k l , h k , t l ) (e_i, a_{ij}, s_{ijkl}, h_k, t_l) (ei,aij,sijkl,hk,tl)
其中 e i e_i ei是实体名, a i j a_{ij} aij e i e_i ei的一个方面, s i j k l s_{ijkl}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值