危机相关推文信息分类检测模型研究
1. 研究背景
在危机发生时,Twitter 上会有大量推文分享,内容涵盖危机更新、救援物资分配公告、求助等。准确识别这些危机相关推文中的信息类别,对于有效应对危机至关重要。本文聚焦于危机相关推文信息类别检测,对比了传统机器学习模型(SVM)和提出的语义卷积神经网络(Sem - CNN)模型的性能。
2. 实验设置
实验使用了 CrisisLexT26 数据集的三个数据样本,评估了不同模型在完整数据集、平衡数据集 1 和平衡数据集 2 上的表现。使用的特征包括 TF - IDF、Word2Vec,还引入了语义概念和摘要作为特征。
3. 基线模型(SVM)结果
- 不同特征在不同数据集上的表现
| 模型 | 特征 | 语义 | 完整数据集(P/R/F1) | 平衡数据集 1(P/R/F1) | 平衡数据集 2(P/R/F1) |
| — | — | — | — | — | — |
| SVM | TF - IDF | - | 0.644/0.604/0.617 | 0.608/0.610/0.607 | 0.555/0.548/0.540 |
| SVM | Word2Vec | - | 0.565/0.499/0.508 | 0.539/0.548/0.541 | 0.611/0.618/0.609 |
| SVM | TF - IDF | 概念 | 0.644/0.606/0.618 | 0.612/0.615/0.612 | 0.549/0.547/0.542 |
| SVM | Word
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



