利用嵌入技术进行自然文本情感检测
1. 引言
情感是意识的一个情感方面,代表着诸如幸福、愤怒、爱、恐惧等感受。常见的离散情感包括“愤怒”“敬畏”“同情”等。不过,“惊讶”和“厌恶”这两种情感在不同情境下可被视为其他情感的子集,例如“刚刚发生了什么!!”既可能表达惊讶,也可能是愤怒或恐惧。因此,人类表达的基本情感大致可分为四类:幸福/敬畏/感激/爱、悲伤/内疚/尴尬、恐惧/惊讶、愤怒/厌恶/轻蔑/嫉妒/仇恨。
情感计算旨在识别、解释、处理和模拟通过言语、肢体语言、面部表情、文本等表达的情感。尽管在情感检测领域已有诸多研究,但基于自然文本的情感检测工作相对较少。从2010年到2020年,基于面部表情、语音等的情感检测工作数量显著增加,而基于文本的情感检测仅占总量的约11.16%。
文本情感检测具有挑战性,因为文本高度依赖上下文,且缺乏明确的标签或语音来确定准确性。通过用特征向量表示句子,可以捕捉语言的隐藏信息,如文本类比或上下文,从而实现情感检测。然而,为机器学习模型找到最合适的特征向量也是需要考虑的因素。
本文将展示使用最新嵌入技术(如Doc2Vec、Sentence - BERT和fastText)进行文本情感检测的方法,将情感分为“愤怒”“幸福”“悲伤”和“恐惧”四类,并采用“一对多”方案进行多类分类。同时,还将介绍一种名为DocDict的混合文本嵌入方法,它结合了基于关键字的方法和Doc2Vec的优势,不仅适用于情感检测,还可用于句子嵌入和文本聚类。
2. 相关工作
文本情感检测是情感计算的一部分,本质上是一个基于上下文的分类问题,涉及自然语言处理和机器学习领域的概念。情感分析主要关注句子的“积极”和“消极”性,而情感检测则
超级会员免费看
订阅专栏 解锁全文

2437

被折叠的 条评论
为什么被折叠?



