假新闻检测与古吉拉特语手写字符识别技术
1. 假新闻检测
在信息爆炸的时代,假新闻的传播给社会带来了诸多负面影响。为了有效识别假新闻,研究人员采用了多种机器学习分类器进行实验。
1.1 特征重要性
研究发现,某些特征对于预测假新闻具有关键作用。其中,排名前十的关键特征分别是:
- NN(普通名词,单数或不可数)
- CD(基数词)
- VBP(动词,一般现在时,非第三人称单数)
- VBG(动词,现在分词或动名词)
- positive(积极情感)
- NNP(专有名词,单数)
- JJ(形容词或序数词)
- IN(从属介词或连词)
- VBN(动词,过去分词)
- unique(独特词汇)
这十个特征约占特征域的60%。为了测试这些顶级特征的影响,研究人员仅使用这十个关键特征对模型进行训练。结果显示,使用AdaBoost分类器时,在仅考虑这十个特征的情况下,准确率达到0.8578,F - 分数为0.8753;而当考虑全部特征集时,准确率为1.0000。这表明上述十个特征对于预测假新闻至关重要。
1.2 分类器性能比较
研究中实现了多种分类器,包括AdaBoost分类器、决策树分类器、高斯朴素贝叶斯分类器、K近邻分类器、随机梯度下降分类器和支持向量分类器,用于预测新闻的真假。实验结果表明,当考虑43个特征时,以最大深度为3的决策树为基估计器、包含175个估计器的AdaBoost分类器表现最佳,准确率接近1。而使用上述十个顶级预测特征时,准确率为0.85,F - 分数为0.87。
超级会员免费看
订阅专栏 解锁全文
740

被折叠的 条评论
为什么被折叠?



