2017emnlp-Author-aware Aspect Topic Sentiment Model to Retrieve Supporting Opinions from Reviews阅读笔记

最新推荐文章于 2022-12-03 09:03:00 发布

原创

最新推荐文章于 2022-12-03 09:03:00 发布 · 520 阅读

1 ·

CC 4.0 BY-SA版权

提出一种新的SURF架构，用于在用户评论中寻找支持观点。该架构结合了作者偏好及实体质量，通过动态约束方面分布来提高观点发现的准确性。

这个感觉比较有用的是结合了语境的信息

Abstract

用户关于产品的评论是非常多样化甚至自相矛盾的，这就造成了用户难以确认一条评论是否可信。我们研究了在评论中寻找支持观点的问题，我们提出了一个SURF的架构，这个架构首先识别在评论中的观点表达，然后在其他的评论中发现相似的观点。我们设计了一种新的概率图形模型, 它将观点作为一个由主题和情绪维度的组合构成的aspect来捕获, 同时考虑到个别作者的喜好, 以及被审查的实体的质量, 并对在评论中通过在连续的评审段中动态地约束方面分布的思想这个流程进行编码。我们的想法来源于一个考虑了词汇和语义上的相似性来找到支持的观点相似度评估。我们的实验在TripAdvisor hotel reviews 和 Yelp restaurant reviews 数据集上进行。实验结果表示我们的方法胜过现有方法，并且这个架构能有效率的发现支持观点。

Introduction

当一个顾客查看评论时，需要知道评论的情况是偶然经历还是常态，但是人工去查看那么多的评论是不可能的。因此本文的工作就是找到支持观点。这是很有用的工作，能够帮助用户就他们关心的问题上找到恰当的评论。

一个评论是由多个句子组成的，每个句子由多个由标点符号和连词分割的片段组成。每一个片段都表达了一种观点, 可以表示为一个aspect、topic和sentiment的结合。一个aspect指的是片段整体的主题，一个topic指的是一个特定主体或者被讨论的问题，sentiment是指对于每个topic的情感，可能是neutral, positive 或者 negative ，例句如下

给定一个观点(in a target segment) ，我们说一个评论支持这个观点的条件是这个评论包含了一些segment的aspect, topic 和 sentiment 与target segment是相似的。发现这样的支持观点是困难的，因为评论是短的非结构化文本并且主题的范围太广。

主题模型已被广泛地应用于在主题中组合词来减少海量词汇的影响。然而, 主题模型的基本假设是主题的独立性, 即使在同一文档中也是如此。这不能捕捉在评论中存在的自然一致性, 这个一致性是指很少包括孤立的、无关的句子, 而是由组合的、结构化的和连贯的句子组组成 (Hovy, 1993)。我们观察到, 作者在撰写评论时的思路通常是线性的, 也就是说, 他或她将在移动到下一个方面之前完成讨论的一个方面。在图1中, 我们看到用户第一次评论服务 ("前台员工很亲切"), 然后是地点方面, 接着是对食物的评论, 最后搬到了房间。这表明, 评论中讨论的aspect不是从一个简单的独立混合物中选择的, 而是, 近距离的单词倾向于讨论相同的方面, 在评论中, 当前部分讨论的aspect将影响到下一个aspect的片段。

我们通过使用一个特定的马尔可夫链来约束aspect线段之间的过渡, 从而明确地对此进行建模。假设每个片段都讨论了一个单一的aspect, 而片段的可能的aspect则依赖于前面各个片段的aspect。通过跟踪前段的各个aspect, 我们能够确保对评论结构进行精确建模的