新冠疫情推文情感分析与可逆逻辑加法器设计研究
1. 新冠疫情推文情感分析
1.1 相关工作
多数关于Twitter情感分析的研究倾向于使用机器学习算法。近年来,除了COVID - 19大流行,猪流感(2009年)、埃博拉(2014 - 2017年)、寨卡(2015年至今)等病毒在不同国家引发了疫情。例如,Machuca等人在2020年构建了一个模型,使用逻辑回归算法对COVID - 19大流行期间的英语推文进行分类,模型的分类准确率达到了78.5%。Alrazaq等人在2020年分析了2月2日至3月15日的英语推文,通过单字(一元语法)和双字(二元语法)的词频模型,确定了12个主题,分为病毒起源、来源、对人和经济的影响以及降低感染风险的方法这四个主要主题。Aslam等人研究了COVID - 19新闻头条引发的情感,从141,208条全球英语新闻头条中提取并分类情感,结果显示新闻头条情感得分高且极性为负。
1.2 方法
该研究方法分为数据收集、数据预处理和数据分析三个过程,大量使用了基于Python的自然语言处理工具包NLTK。数据分析阶段又分为两部分:第一部分是对Twitter数据文本内容进行情感分析,使用TextBlob等Python库为推文分配情感极性分数;第二部分是使用TF - IDF技术进行特征提取,以便用监督学习算法进行进一步预测。
- 数据收集和预处理 :从Kaggle数据仓库网站收集了2020年7月25日至8月29日的COVID - 19相关推文数据集,共179,104条推文。在将数据应用于预测模型之前,进行了数据预处理,包括识别并移除非英语推文,去除特殊字符、表情符号、URL和不可打印字符
超级会员免费看
订阅专栏 解锁全文
8235

被折叠的 条评论
为什么被折叠?



