21、利用数据挖掘识别不相关的种族主义推文

最新推荐文章于 2025-12-02 15:51:34 发布

火锅底料102

最新推荐文章于 2025-12-02 15:51:34 发布

阅读量8

点赞数

CC 4.0 BY-SA版权

分类专栏：智能交通与通信前沿文章标签：数据挖掘种族主义推文 Twitter

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/spark7igniter/article/details/152160208

智能交通与通信前沿专栏收录该内容

79 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用数据挖掘识别不相关的种族主义推文

1. 研究背景

在社交媒体平台上，推文与所带话题标签的相关性判断至关重要。此前有研究提出了用于推特数据的监督情感分类框架，可利用50个推特标签和15个表情符号作为情感分类器，对推文进行情感分类。但更多研究聚焦于将推特上的信息分为垃圾推文和正常推文，比如使用热门话题标签发布的各类博客、产品广告，常被视为垃圾信息，这导致大量有用信息被淹没，合法用户难以找到所需内容。

本文旨在判断推文内容与所带话题标签“#whitelivesmatter”是否相关，与以往研究不同的是，本文重点在于推文与标签的相关性，而非内容是否为垃圾信息。

2. 数据收集

为训练和实验模型，需要收集包含“#whitelivesmatter”话题标签的种族主义和K-pop相关推文。由于没有现成的免费数据集，采用了多种方法提取推文：
- 使用公共Twitter API ：这是合法提取推文的最佳方式，通过Twitter为注册开发者账户提供的访问令牌进行身份验证。使用Tweepy通过Twitter REST API发起请求，Tweepy的游标返回JSON格式的对象，再将其转换为Pandas DataFrame。不过，开发者只能获取过去7天的数据，且在特定时间段内请求有限，此方法最终仅获取了500条推文，大部分为英语推文。
- 自定义模块提取 ：利用Python 3.8的可用包构建自定义模块，从Twitter提取了5月至8月期间带有“#whitelivesmatter”话题标签的1800条独特推文。此外，还提取了800条带有“#kpop”话题标签的推文，用于为模型训练提供

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。