首先给一个链接,http://www.kimschouten.com/papers/hu-liu-2004/,这也是对Hu 2004 这篇文章的一个详细总结。
这篇文章也算一篇经典,这里给出原文翻译。
在Wed上售卖商品的商家经常要求用户对他们购买的产品以及相关服务进行评价。在电子商务变得越来越流行的情况下,一个商品下的用户评论数量快速增长。对一个比较受欢迎的商品,评论的数量可以以百计甚至以千计。对潜在的用户来说,阅读所有的评论以做出是否购买该商品的决策是非常困难的。同时让商品的产家跟踪管理用户观点变得困难。对于产家来说,由于多个卖家网址会售卖同一商品并且产家也会生产多种产品,这会带来额外的难度。这里的归纳任务和传统的文本总结是不一样的,因为我们只挖掘用户表达情感的产品特征以及情感是正还是负。我们并不像典型的文本摘要中通过选择原始句子的一个子集或者重写一些评论中的原始句子来总结评论。我们的任务分为三个步骤:(1)挖掘用户评论的商品特征;(2)识别每个评论中的观点句子,并确定句子是正还是负;(3)总结结果。本文提出几个新颖的方法来处理这些任务。我们在网上售卖的商品的评论上实验结果表明了技术的有效性。
1. 介绍
随着电子商务的快速扩张,越来越多的商品在Web上出售,并且越来越多的人在线买商品。为了提高用户满意度以及购物体验,对于在线卖家来说允许用户对他们购买的商品进行评论或表达观点变得越来越平常。随着越来越多的普通用户对Web感到满意,数量不断增加的用户在写评论。结果,每个商品得到的评论数目快速增加。一些受欢迎的商品可以得到几百条评论。而且,很多评论非常长,仅有一小部分句子包含对商品的观点。这使得潜在用户通过阅读评论以做出是否购买的决策变得困难起来。如果他/她只读了一小部分评论,他/她可能得到带偏见的看法。大量的评论也让商品产家跟踪用户对他们的产产品观点变得困难。由于很多卖家网址可能售卖它的产品并且产家通常会生产多种商品,这对卖家带来了额外的难度。
在本文中,我们学习关于生成在线商品评论基于特征的总结问题。这里,特征广泛的指商品特征(或属性)以及功能。给定关于某指定商品的一组顾客评论,这个任务包含三个子任务:(1)识别用户表达情感的特征;(2)对每个特征,识别给出正或负观点的句子;(3)利用发现的信息生成总结。
让我们用一个例子来说明一个基于特征的总结。假设我们总结指定数码相机的评论。总结看起来如下:
在图1中,picture quality和size是商品特征。有253条用户评论对picture quality表达正情感,只有6条表达负情感。
通过这样一个基于特征的总结,一个潜在用户就可以很容易的看到现有用户对这个数码相机感觉怎么样。如果他/她对某个特征特别感兴趣的话,他可以打开后面的<individual review sentences>链接看看现有用户为什么喜欢或者他们在抱怨什么。对产家来说,从多个售卖网址组合评论从而为每个商品生成一个报告也成为可能。
我们的任务和传统的文本摘要有几处不一样。首