微博谣言检测与图像分类技术解析
1. 微博谣言检测方法
在互联网蓬勃发展的当下,社交媒体上谣言的传播成为了一个严重的问题。它不仅阻碍人们获取真实可靠的信息,还可能在紧急情况下造成重大经济损失或引发公众恐慌。因此,构建自动检测模型来识别社交媒体上的谣言迫在眉睫。
传统的谣言检测方法主要依赖人工提取特征,效率低下且泛化能力弱。例如,早期的一些方法,像 Castillo 等人基于 Twitter 数据手动提取情感得分、用户特征等构建 J48 决策树分类器,Yang 等人基于新浪微博数据手动提取内容、用户等特征采用 SVM 模型分类。这些方法虽然能取得一定的效果,如 Castillo 等人的模型在谣言识别中达到 86% 的准确率,Yang 等人的模型最终准确率达到 78.7%,但手动提取特征耗时费力,且设计的特征存在局限性,泛化性能不佳。
为了解决这些问题,研究人员开始采用深度神经网络自动学习高级特征来检测谣言。Ma 等人使用循环神经网络对转发进行建模并从文本内容中捕获隐藏特征,Yu 等人使用卷积神经网络捕获文本的语义特征。然而,循环神经网络存在梯度消失和不易并行化的问题,尽管 LSTM 和 GRU 能缓解梯度消失问题,但无法完全解决,而卷积神经网络虽擅长特征检测,但缺乏记忆功能。
基于此,提出了一种基于 Transformer 模型的微博谣言检测方法。具体步骤如下:
1. XLNet 预训练方法 :使用广义自回归语言模型 XLNet,通过最大化所有可能因式分解序列的期望对数似然来实现双向上下文学习。例如,对于一个谣言文本 w = {w1, w2, w3, w4} ,预测 w3 时,通过不同的排列方式(如 1 → 4 →
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



