基于BERT的COVID - 19疫情推文情感分类方法
1. 引言
情感是基于个人不同情境或情绪产生的强烈感受,会影响决策、行为和思维。然而,由于文本缺乏语音或面部反应,确定文本内容的情感状态是一项具有挑战性的任务。情感检测因其日益广泛的应用而受到了众多研究人员的关注,其应用场景包括人机交互、人工智能助手、市场营销以及态度或个性检测等。
在COVID - 19疫情期间,长时间的封锁使得人们的情感状态成为了一个活跃的研究领域。据美国的一项调查预测,在封锁期间,在线社交媒体Facebook、Twitter和Linkedin的使用率将分别增长62.3%、34.4%和15.4%。为了分析疫情期间的情感流动,研究选取了Twitter上的英文推文,因为大多数推文是公开的。
此前已有不少关于情感分类的研究尝试,例如使用监督机器学习与SNoW学习架构进行情感分类、提出改进的潜在语义分析算法在ISEAR数据集上检测情感、利用情感词标签从推文中捕获精细情感类别等。但大多数研究使用手动特征提取进行特定情感分类任务,且模型决策未得到解释。
本文提出了一种采用LSTM和基于BERT的深度学习的迁移学习方法进行情感分类。该方法在ISEAR情感分类数据集上优于一些先进的情感检测方法,并且通过模型无关解释方法LIME说明了停用词和相关特征的影响。
2. 数据集
本研究使用了两个数据集:
- ISEAR数据集 :包含被分为七种重要情感的文本,分别是愤怒、恐惧、内疚、厌恶、悲伤、喜悦和羞耻。该数据集由心理学家为ISEAR项目收集,共有7666个标注文本和7503个唯一文本,其数据分布如下表所示:
| 情感
超级会员免费看
订阅专栏 解锁全文

38

被折叠的 条评论
为什么被折叠?



