利用数据挖掘识别不相关的种族主义推文
1. 研究背景
在社交媒体平台上,推文与所带话题标签的相关性判断至关重要。此前有研究提出了用于推特数据的监督情感分类框架,可利用50个推特标签和15个表情符号作为情感分类器,对推文进行情感分类。但更多研究聚焦于将推特上的信息分为垃圾推文和正常推文,比如使用热门话题标签发布的各类博客、产品广告,常被视为垃圾信息,这导致大量有用信息被淹没,合法用户难以找到所需内容。
本文旨在判断推文内容与所带话题标签“#whitelivesmatter”是否相关,与以往研究不同的是,本文重点在于推文与标签的相关性,而非内容是否为垃圾信息。
2. 数据收集
为训练和实验模型,需要收集包含“#whitelivesmatter”话题标签的种族主义和K-pop相关推文。由于没有现成的免费数据集,采用了多种方法提取推文:
- 使用公共Twitter API :这是合法提取推文的最佳方式,通过Twitter为注册开发者账户提供的访问令牌进行身份验证。使用Tweepy通过Twitter REST API发起请求,Tweepy的游标返回JSON格式的对象,再将其转换为Pandas DataFrame。不过,开发者只能获取过去7天的数据,且在特定时间段内请求有限,此方法最终仅获取了500条推文,大部分为英语推文。
- 自定义模块提取 :利用Python 3.8的可用包构建自定义模块,从Twitter提取了5月至8月期间带有“#whitelivesmatter”话题标签的1800条独特推文。此外,还提取了800条带有“#kpop”话题标签的推文,用于为模型训练提供
超级会员免费看
订阅专栏 解锁全文
8

被折叠的 条评论
为什么被折叠?



