一、摘要
- 本文旨在于解决两方面的问题。
- opinion lexicon expansion(意见词典扩展)
- opinion target extraction (意见目标扩展)
- 为了解决上面两方面的问题,通过使用依赖解析器去扩展意见字典和挖掘目标,使得opinion words和targets建立联系。
- 作者使用双向循环的方法来使用信息在opinion words和target之间不断传播。这种方法的好处就是只需要一个初始的opinion字典即可。
二、介绍
- opinion lexicon就是包含许多的opinion 单词,例如good, excellent, poor 和 bad。但是使用opinion字典的缺陷就在于不可能去囊括所有的意见和领域。并且一个词可能在这个领域是positive,在另一个领域可能就是neural了。
- Opinion targets代表被opinion表述的对象。例如I am not happy with the battery life of this phone,电池的寿命就是opinion target。
- 作者提出的方法:从已知和被提取的(在之间的迭代)的opinion words和targets中,通过识别语义上的联系,迭代提取opinion words和targets。这种使得信息在opinion和target之间来回流动的方法称为double propagation。
三、Relation Identification(关系识别)
-
意见词典扩展的关键就在于识别opinion word-target (OT-Rel)、target-target(TT-Rel)、opinion word-opinion word(OO-Rel) 之间的关系。
-
直接依赖:A和B直接关联、A和B通过H直接关联。
-
间接依赖:A通过H1依赖于B、A和B分别通过H1和H2依赖于H
-
为了方便后面的依赖解析器,还引入了序列标注任务。一般opinion words多为形容词、targets一般为单个名词或名词短语。
四、Opinion Lexicon Expansion and Target Extraction
- 扩展方法是基于预先定义好的规则。例如:一个opinion word通过人直接依赖的名词被作为宾语等等。
- 主要思想:首先通过初始的opinion lexicon去句子中识别opinion words,然后通过句法关系,进一步识别出其他opinion words或者target,然后将他们加入到lexicon。再不断迭代上面的过程,直到没有新的opinion words和targets能够被识别出来。
五、Propagation Rules Defined Based on Relations
-
在进行传播的过程中会有下面4个子任务:
- extracting targets using opinion words
- extracting targets using the extracted targets
- extracting opinion words using the extracted targets
- extracting opinion words using both the given and the extracted opinion words
-
举个例子,对于句子“Canon G3 takes great pictures, The picture is amazing, You may have to get more storage to store high quality pictures and recorded movies,and The software is amazing”。我们的opinion lexicon里面只有一个单词“great”。
- 根据great,通过句法关系,我们可以识别出picture(target)。
- 然后通过picture,通过句法关系,我们可以在第二句话中识别出amazing。
- 通过piciture还可以识别出movies。
- 通过amazing我们又可以识别出software。
六、Opinion Word Polarity Assignment
- 关于opinion words和targets,作者观察到几个方面:
- 在一个评论中,对于相同的target,情感极性一般是相同的。
- 在一个领域库中,相同观点词具有相同极性。
- 基于观察到的两方面,建立下面几条判断情感极性的规则。
- 对于由已知target提取的opinion words和由已知opinion words提取的target,我们赋予它们与已知相同的极性。
- 对于由已知opinion words提取的opinion words和由已知target提取的target,我们赋予它们与已知相同的极性。除非句子中出现相反的话语。
七、总结
本文是在2011年发表的ACL论文,时间比较久了。提出的思想是通过初始化一个小的opinion字典,然后通过句法规则去实现double propagation,从而实现opinon lexicion和target(aspect)lexicon的扩展,最后再通过一些预定义的规则去进行分类。