基于多参数融合的Twitter犯罪检测模型研究
1. 引言
在社交媒体日益普及的今天,网络犯罪问题愈发严峻。为了更有效地检测社交媒体上的犯罪行为,研究人员提出了一种结合情感分析、脏话检测、仇恨言论检测和针对性言论检测的模型。该模型旨在通过多参数融合的方式,提高网络犯罪检测的准确性和效率。
2. 提出的模型
2.1 系统训练流程
系统训练过程主要分为两个部分:确定情感极性程度以及计算脏话内容、仇恨言论和针对性言论的数量。在情感分析方面,使用了电影评论数据集、亚马逊评论数据集和航空公司反馈数据集对神经网络进行训练和测试。而脏话检测和仇恨言论分析则使用了Tom Davidson的“仇恨言论和冒犯性语言”数据集、Kaggle脏话数据集以及Twitter上的仇恨和辱骂性言论相关数据集。
2.2 推文检索
实验使用Twitter API获取实时数据。其中,Stream API用于提取实时推文,Search API用于提取与关键词和用户名相关的推文。为了进行实验,提取了关于新发布的小工具、车辆和社会争议等热门话题的推文。推文检索和数据预处理的过程如下:
graph LR
A[Twitter API] --> B[Stream API提取实时推文]
A --> C[Search API提取关键词和用户名相关推文]
B --> D[数据预处理]
C --> D
2.3 数据预处理
挖掘Twitter数据具有一定挑战性,原始数据中
超级会员免费看
订阅专栏 解锁全文
94

被折叠的 条评论
为什么被折叠?



