基于混合深度学习模型的孟加拉语假新闻检测
1. 引言
在当今科技先进的全球化时代,人们通过各种通信技术紧密相连。在线新闻门户和社交媒体平台的兴起,让我们能轻松获取各类新闻和观点。像 Facebook 每月约有 28.5 亿活跃用户,Twitter 每月约有 1.87 亿活跃用户。然而,我们面临的一个重要问题是,通过这些在线平台获取的信息是真是假,普通民众往往难以辨别。
假新闻指的是虚假信息、误导性内容、虚假背景、操纵性内容和标题党等的传播。其背后可能是别有用心的人,甚至是程序机器人在大量用户聚集的平台上散布误导性信息。假新闻的传播动机有时是为了在政治上打压对手、获取政治利益,甚至会对他人生活造成伤害,比如 2016 年美国大选期间,虚假新闻就对选举结果产生了重大影响。
目前,许多研究人员致力于开发算法和应用程序来识别和减少假新闻的传播,但大多数研究都以英语为媒介语言。而孟加拉语作为全球第五大使用语言,有大约 2.3 亿母语使用者和 3700 万第二语言使用者,针对孟加拉语假新闻检测的研究却很少。因此,本文聚焦于以下几个方面:
- 基于文章标题和内容检测孟加拉语假新闻文章。
- 在公开可用的孟加拉语数据集上,评估使用 GloVe 嵌入的深度学习模型组合的性能。
- 比较在数据集不平衡的情况下,使用和不使用类别权重时模型的性能。
2. 相关工作
假新闻的传播并非新鲜事,在新闻概念诞生的古代就已存在。在现代,从新闻平台检测假新闻是一项巨大挑战。研究人员主要采用深度学习和机器学习方法来自动识别假新闻。
- 有研究使用 CNN、LSTM 和 Bi - LSTM 模型,应用于 2016 年发布的 Fake N
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



