情感对象抽取
By twenzon 2012-4-20
观点挖掘与情感分析在近十年得到快速发展,研究也因为应用的需求从最初的情感分类[1,2]发展到现在的各种研究方向如情感对象抽取、情感极性判断、情感持有者抽取、情感主体抽取等[3]。因为产品评论中存在着重要的商业情报(如产品的哪些特征具有什么优缺点,消费者是否喜欢,和其他竞争品比较怎么样),对其进行观点挖掘很有意义。这显然不仅需要抽取观点极性,还需要确定观点的对象。这就涉及到细粒度情感挖掘。对于情感对象的抽取,最初由Bing Liu[4,5]等提出。这迅速得到相关研究者的关注并在接下来几年成为情感挖掘领域的一大研究热点。之后又有研究者将情感对象抽取应用到新闻文章及评论中,但是因为文本源的不同使得方法、效果都有所不同。下面我简要总结一些情感对象抽取的工作。
产品评论中情感属性抽取
最初由Hu和Liu等[4]在2004年提出抽取情感属性。他们的方法根据的主要特征是:1)评论主要是属性,一般为名词;2)评论中基本上评论的是产品的属性(特征),而产品是有有限量的特定的属性,并且这些属性会被频繁评论;3)情感词一般是形容词,而形容词用来修饰名词(属性),它们距离近。于是它们的方法可以:从名词中找到频繁名词是产品属性(利用频繁集);非频繁集则可以通过情感词(形容词)来找,离形容词近。实验结果表明准确率可以达到接近80%。
后来的产品特征抽取多是在该工作的基础上进行改进。主要改进方向有:
1) 文献[6]先给定一些已知的产品属性,然后对未知的属性通过查找网页计算其与已知的属性的PMI来决定是否是;
2) 文献[7]则认为产品特征在产品评论中比在一般的语料中出现的更频繁;
3) 文献[8]则针对的是博客中写的产品评论抽取情感对象和极性对,利用的是通过模式挖掘抽取的句法模式;
4) [9]把对象抽取作为一个主题指代消解问题,将有相同对象的情感聚类,然后用来判断是否是针对相同的对象(分类)。另外还有一些利用双层网络关系(情感词为一层、情感对象为一层,情感词和情感对象组成层间关系)的关联关系来抽取对象[10]。
5) 利用句法依赖关系。因为评论中形容词主要为情感词,它和情感对象的句法依赖关系模式比较单一,然后通过迭代来不断找到情感词和情感对象[11]。
新闻及评论的情感抽取