危机相关推文分类器对比分析与改进的极限学习机
危机相关推文分类器对比分析
在当今社会,Twitter 等社交媒体平台在危机时期成为了重要的信息传播渠道。对危机相关推文进行有效分类,有助于相关部门及时获取关键信息,做出更好的应急决策。下面将详细介绍不同分类器在危机相关推文上的对比实验。
实验二:机器学习算法对比
本实验将上一实验中确定参数的神经网络分类器与其他机器学习算法进行对比,使用了 CrisisLexT6 的六个数据集以及多种特征向量创建方法。
-
数据处理
- 分别使用 CrisisLexT6 中的每组推文,采用 5 折交叉验证法计算准确率。
- 运用七种特征向量化方法创建测试集,包括词频、归一化词频、TF - IDF、经过处理的词频、经过处理的归一化词频、经过处理的 TF - IDF 以及词嵌入。由于在 k 折交叉验证的每次测试中都会创建向量,所选词汇表会因数据集不同部分的省略而有所差异,导致基于词频的向量在每次测试中的维度不同。
-
训练与评估
- 测试了四种机器学习算法的准确率:
- 前三种算法(朴素贝叶斯、逻辑回归和支持向量机)使用 scikit - learn API 实现,采用默认参数值。对于朴素贝叶斯,针对基于词频的特征向量假设为多项分布,针对基于词嵌入的特征向量假设为高斯分布。
- 逻辑回归使用 L2 正则化,停止准则的容差为
- 测试了四种机器学习算法的准确率:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



