利用机器学习进行假新闻检测
1. 研究背景与相关工作
在当今信息爆炸的时代,社交媒体上的假新闻泛滥成灾,给社会带来了诸多负面影响。检测假新闻成为了一项极具挑战性但又至关重要的任务。
一些研究者提出了不同的方法来评估新闻的真实性。例如,有观点认为行话和标记序列覆盖分数可用于生成真实性评估的信号,即使对于简短嘈杂的文本也适用。Joulin 等人提出了基于 n - 元特征、降维和快速估计 softmax 分类器的内容分类模型,该快速内容分类器基于项目量化技术,能在减少训练和评估时间的同时给出准确结果。
还有其他关于社交媒体上假新闻检测的研究。Zhou 等人对社交媒体中假新闻检测的前沿进行了全面描述。Aggarwal 等人基于 URL、查询数据库内容的约定和关注者组织,识别出钓鱼推文的四个不同特征,这些推文虽与虚假和不可信推文类似,但可能会给点击相关链接的人造成巨大经济损失。Yardi 等人创建了三种用于 Twitter 垃圾邮件识别的特征类型,包括搜索 URL、匹配用户名模式和定位疑似垃圾邮件中的关键词。O’Donovan 等人将 URL、提及、转发和推文长度确定为有效和不可信推文的最有用指标。Gupta 等人建立了一个框架和实时评估系统,用于在推文发布时验证 Twitter 上创作者内容的可信度,并为每条推文分配一个分级的可信度分数或等级。
2. 研究方法
2.1 研究目标
社交媒体的普及吸引了大量垃圾邮件发送者传播大量垃圾消息,而大多数垃圾消息是由机器人自动生成的。因此,本研究旨在识别特定社交媒体账户是恶意的还是真实的,将结果分为机器人账户和非机器人账户两类。
超级会员免费看
订阅专栏 解锁全文
6345

被折叠的 条评论
为什么被折叠?



