21、利用数据挖掘识别不相关的种族主义推文

利用数据挖掘识别不相关的种族主义推文

1. 研究背景

在社交媒体平台上,推文与所带话题标签的相关性判断至关重要。此前有研究提出了用于推特数据的监督情感分类框架,可利用50个推特标签和15个表情符号作为情感分类器,对推文进行情感分类。但更多研究聚焦于将推特上的信息分为垃圾推文和正常推文,比如使用热门话题标签发布的各类博客、产品广告,常被视为垃圾信息,这导致大量有用信息被淹没,合法用户难以找到所需内容。

本文旨在判断推文内容与所带话题标签“#whitelivesmatter”是否相关,与以往研究不同的是,本文重点在于推文与标签的相关性,而非内容是否为垃圾信息。

2. 数据收集

为训练和实验模型,需要收集包含“#whitelivesmatter”话题标签的种族主义和K-pop相关推文。由于没有现成的免费数据集,采用了多种方法提取推文:
- 使用公共Twitter API :这是合法提取推文的最佳方式,通过Twitter为注册开发者账户提供的访问令牌进行身份验证。使用Tweepy通过Twitter REST API发起请求,Tweepy的游标返回JSON格式的对象,再将其转换为Pandas DataFrame。不过,开发者只能获取过去7天的数据,且在特定时间段内请求有限,此方法最终仅获取了500条推文,大部分为英语推文。
- 自定义模块提取 :利用Python 3.8的可用包构建自定义模块,从Twitter提取了5月至8月期间带有“#whitelivesmatter”话题标签的1800条独特推文。此外,还提取了800条带有“#kpop”话题标签的推文,用于为模型训练提供

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值