BERT 基于 COVID - 19 推文分析的情感分类方法
1. 引言
情感是基于个人不同情境或情绪产生的强烈感受,会影响决策、行为和思维。然而,由于缺乏语音或面部反应,确定文本内容的情感状态是一项具有挑战性的任务。情感检测因其日益广泛的应用而受到了众多研究人员的关注,其应用领域包括人机交互、人工智能助手、市场营销以及态度或个性检测等。
在 COVID - 19 大流行期间,由于长时间的封锁,人们在此期间的情感状态成为了一个活跃的研究领域。据美国的一项调查预测,在封锁期间,在线社交媒体 Facebook、Twitter 和 Linkedin 的使用量将分别增长 62.3%、34.4% 和 15.4%。为了分析疫情期间的情感流动,本研究考虑了 Twitter 上的英文推文,因为大多数推文是公开的。
此前已有许多研究尝试设计有效的情感分类方法,不过大部分研究使用手动特征提取进行特定情感分类任务,且模型决策未得到解释。本文提出了一种基于迁移学习的方法,采用基于 LSTM 和 BERT 的深度学习进行情感分类,该方法在 ISEAR 情感分类数据集上优于一些现有技术。同时,通过模型无关解释方法 LIME 说明了停用词和相关特征的影响,并对 COVID - 19 相关推文进行了全面分析,以帮助政策制定者制定最优政策。
2. 数据集
本研究使用了两个数据集,具体如下:
2.1 ISEAR 数据集
ISEAR 数据包含被分类为七种重要情感的文本:愤怒、恐惧、内疚、厌恶、悲伤、喜悦和羞耻。该数据由心理学家为 ISEAR 项目收集,是此任务中常用的数据集之一。数据集包含 7666 个标记文本和 7503 个唯一
超级会员免费看
订阅专栏 解锁全文
38

被折叠的 条评论
为什么被折叠?



