利用嵌入技术进行自然文本情感检测
1. 引言
情感是意识的一个情感方面,代表着诸如幸福、愤怒、爱、恐惧等感受。人类表达的基本情感大致可分为四类:幸福/敬畏/感激/爱、悲伤/内疚/尴尬、恐惧/惊讶,以及愤怒/厌恶/轻蔑/嫉妒/仇恨。情感计算通常涉及识别、解释、处理和模拟通过言语、肢体语言、面部表情、文本等表达的情感。
文本情感检测是情感计算的一部分,但目前基于自然文本的情感检测工作相对较少。由于文本高度依赖上下文,没有明确的标签或语音来确定准确性,因此从文本中提取句子的上下文以及其中传达的情感是一项挑战。通过用特征向量表示句子,可以捕捉语言的隐藏信息,如文本类比或上下文,从而实现从文本中检测情感。然而,为机器学习模型找到最合适的特征向量也是需要考虑的因素。
本文将展示使用最新嵌入技术(如 Doc2Vec、Sentence - BERT 和 fastText)从文本中检测情感的方法。将情感分为愤怒、幸福、悲伤和恐惧四类,并采用“一对多”方案进行多类分类。同时,还引入了一种名为 DocDict 的混合嵌入方法,它结合了基于关键词的方法和 Doc2Vec 的优势,不仅适用于情感检测,还可用于句子嵌入和文本聚类。
2. 相关工作
文本情感检测本质上是一个基于上下文的分类问题,涉及自然语言处理和机器学习领域的概念。情感分析主要关注句子的“积极”或“消极”性,而情感检测则侧重于确定不同的人类情感。
情感检测的方法主要基于面部表情识别、生理信号识别、语音信号变化和文本语义。其中,基于文本语义的检测方法通常分为三类:基于关键词的方法、基于学习的方法和混合推荐方法。本文主要尝试使用嵌入技术进行基于文本数据的情感识别,并引入了 DocDi
超级会员免费看
订阅专栏 解锁全文
2445

被折叠的 条评论
为什么被折叠?



