基于法尼气旋的推文数据科学分析
1. 引言
人类一直受到各种自然灾害的威胁,其中热带气旋在生命和财产损失方面最为严重。热带气旋是一种高速旋转的风暴系统,中心为低压眼,直径在100至2000公里之间,伴有强风、雷暴和暴雨。尽管预计热带气旋的数量会减少,但气旋强度的增加加剧了灾害风险,因此这是一个重要的研究领域。
2019年5月袭击印度东部及周边地区的法尼气旋,是2013年“菲林”气旋之后袭击印度东海岸最强大的热带气旋,强度相当于4级飓风,受影响地区包括斯里兰卡、孟加拉国、不丹、奥里萨邦、安得拉邦、西孟加拉邦和印度东北部地区。
如今,社交媒体已成为人们交流、传播信息和表达思想的首选媒介,对社交媒体内容的研究也成为热门领域。在众多社交媒体平台中,推特作为一种微博客服务,激发了许多研究人员对用户交互分析、标签使用和URL使用等方面的研究。
从推文中提取信息并将单词表示为向量进行分析,已成为自然灾害研究的趋势。向量表示法比固定长度的词袋模型更优,因为词袋模型存在顺序丢失和不考虑语义的问题。Word2Vec中的Skip - Gram(SG)和Continuous - Bag - of - Words(CBoW)等词嵌入技术是该领域常用的方法。
随着社交媒体和微博客网站的出现,情感分析成为商业、营销和政治等领域的重要工具,它能比传统的调查和民意测验更轻松地了解目标受众。朴素贝叶斯分类器(NBC)是情感分析中常用的方法,因其能高效准确地进行多类预测。
本文对与法尼气旋相关的推特推文进行分析。创建了一个推特爬虫来收集相关推文,并进行信息提取后创建了数据集。研究分为三个阶段:法尼气旋来临前、气旋期间和气旋过后。主要分析中,使用词云展示各阶段
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



