情感嵌入语义空间助力更精准的情感分析
1. 引言
在社交媒体平台上,情感分析已成为一种流行的应用。它旨在将文本分类为不同的情感类别,如积极或消极,甚至更细粒度的类别,像非常积极、积极、中立等。对于企业而言,精准的情感分析有助于识别大众对产品的看法,从而进行产品改进,因此在众多应用场景中都具有重要意义。
词嵌入是情感分析处理系统的关键组成部分。根据词嵌入所捕获的信息,用于情感分析任务的词嵌入主要分为两类:语义导向的词嵌入和情感导向的词嵌入。语义导向的词嵌入(如 Word2Vec)能够从上下文中捕获语义信息,但往往无法充分捕捉情感信息。这就导致一些词虽然向量相似,但情感极性却截然不同,进而影响后续的情感分析性能。例如,在语义空间中,“good”和“bad”可能被认为很接近,但实际上它们的情感极性完全相反。
为了解决这个问题,一些研究建议采用监督方法,从标注数据中构建语义导向的词嵌入,通过目标函数根据训练实例的情感标签来优化词向量。然而,这种方法一方面会使词嵌入丢失原始的语义信息,另一方面需要大量的标注数据和处理时间。还有研究者尝试使用情感词典来改进语义导向的词嵌入,但数据集和情感词典之间的差异也会对情感分析性能产生影响。
为了克服这些问题,本文提出了一种新颖且高效的方法,用于从语义空间生成情感空间,即情感嵌入语义空间(SESS)。该方法基于 K - means 和 CNN,具有以下主要贡献:
- 从语义空间生成的 SESS 能够同时捕获语义和情感信息,基于 SESS 构建的分类器在情感分析任务中的准确性得到了提升。
- 基于情感词典和处理数据集,通过 SESS 生成了更细粒度的情感词典。