部分翻译:
Abstract
观点抽取在情感分析中是很重要的一方面。现在的工作倾向于使用主题模型来进行这项工作。这篇文章提出了一个新的神经网络的方法来探索连贯性的aspect。该模型使用神经词向量通过利用与之相关联的词的分布来提高一致性。不像主题模型通常假设单词的生成是独立的,词向量模型假设在相似的上下文中出现的词在向量空间中相互之间靠近。另外,在训练过程中我们使用注意力机制忽视不相关的词,这也提高了aspects(类别) 的相关性。实验是基于真实数据的。
Introduction
类别提取是情绪分析中的关键任务之一。它的目的是提取已发表意见的实体类别 (胡和刘, 2004;刘, 2012)。例如, 在句子 "牛肉嫩得在我的嘴里溶化了", 类别是 "牛肉"。在类别提取中执行两个子任务: (1) 从评论语料库提取所有类别术语 (如 "牛肉"), (2) 将具有相似意义的类别划分为类别族群, 其中每个族群代表一个单一类别 (例如, 群集 "牛肉", "猪肉", "面食 ", 和" 西红柿 "成一个方面的族群)。以前的方面提取工作可以分为三种方法: 基于规则的、监督的和无监督的。基于规则的方法通常不将提取的类别术语分组为类别族群。有监督的学习需要数据的符号, 并存在领域适应问题。采用无监督的方法, 以避免依赖被标记的数据所需的监督学习。
近年来, 隐性分配 (LDA) (Blei 等, 2003) 及其变种 (蒂托夫和麦当劳, 2008;布罗迪和 Elhadad, 2010;赵等, 2010;慕穆和刘, 2012) 已成为主要的无监督方法的方面提取。LDA 将语料库建模为主题 (类别) 的混合物, 主题作为词类型的分布。虽然基于 LDA 的模型所发现的各个类别的混合可以相当好地描述一个语料库, 但我们发现推断出的个别类别的质量较差--这些类别通常由无关或松散的概念组成。这可能大大降低用户对使用这种自动化系统的信心。质量差可能有两个主要原因。传统的 LDA 模型不直接编码单词共生统计数据, 这是保存主题一致性的主要信息来源 (Mimno et, 2011)。它们通过从文档级别建模单词生成来隐式捕获这些模式, 假设每个单词都是独立生成的。此外, 基于 LDA 的模型需要估计每个文档的主题分布情况。评论文件往往是短的, 从而使估计的主题分布更困难。
在这项工作中, 我们提出了一种新的神经方法来解决基于 LDA 的方法的弱点。我们从神经字向量开始, 它已经将通常在同一上下文中的单词映射到向量空间中的邻近点 (Mikolov 等, 2013)。然后, 我们使用注意机制 (Bahdanau 等, 2015) 在一个句子中过滤单词向量, 并使用过滤后的单词构造类别向量。向量方面的训练过程类似于自编码器, 我们使用降维(dimension reduction )来提取向量化的句子中的共同因素, 并通过向量的线性组合重建每个句子。注意机制 忽略不属于任何类别的单词, 从而使模型能够集中于属于类别的单词。我们称我们建议的基于模型注意的类别提取 (ABAE)
Related Work
在过去的十年中, aspect提取问题得到了很好的研究。最初, 方法主要基于手动定义的规则。胡和刘 (2004) 建议通过查找频繁的名词和名词短语来提取不同的产品特征。他们还通过 WordNet, 通过发现观点种子词的同义词和反义词来提取意见词。在此基础上, 提出了基于频繁项挖掘和依赖信息提取产品方面的若干方法 (壮族等, 2006;素马孙德兰和 Wiebe, 2009;邱等, 2011)。这些模型很大程度上取决于预定义的规则, 只有当方面的术语限制在一小部分名词上时, 才会很好地工作。
监督学习方法一般采用模型方面抽取作为标准序列标记问题。金和浩 (2009) 和李等人 (2010) 建议使用隐马尔可夫模型 (HMM) 和条件随机域 (CRF), 分别与一组人工提取的功能。最近, 不同的神经模型 (阴等, 2016;2016) 提出了自动学习基于 CRF 的aspect提取功能的方法。基于规则的模型通常不够细化, 无法对提取的aspect术语进行分类。另一方面, 受监督的学习需要大量的标记数据来进行培训。
随后提出了无监督的方法, 特别是主题模型, 以避免依赖标签数据。通常, 这些模型的输出是每个aspect的字分布或排名。各aspect自然获得, 而不单独执行提取和分类。多数现有的工作 (布罗迪和 Elhadad, 2010;赵等, 2010;慕穆和刘, 2012;陈等, 2014) 的基础上的变体和扩展的 LDA (Blei 等, 2003)。最近, 王等人 (2015) 提出了一个受限玻尔兹曼机器 (以成果管理) 为基础的模型, 同时提取一个特定的复核句的aspect和相关的情感, 把aspect和情感作为单独的隐藏变量的成