灾害相关推文分类与心血管疾病检测研究
1. 灾害相关推文分类
1.1 不同分类器准确率对比
在对灾害相关推文进行分类时,使用了多种分类器,并结合不同的特征提取技术。以下是不同分类器在不同特征提取技术下的准确率对比:
| 分类器名称 | CountVectorizer(词袋) | TF - IDF(词级别) | TF - IDF(n - gram范围1,3) | TF - IDF(字符级别) |
| — | — | — | — | — |
| Linear SVC | 0.672320 | 0.701552 | 0.707326 | 0.698304 |
| Logistic regression | 0.708769 | 0.696499 | 0.700108 | 0.682064 |
| Multinomial Naive Bayes | 0.670516 | 0.657163 | 0.665464 | 0.619632 |
| Random forest | 0.661855 | 0.666185 | 0.654280 | 0.610609 |
| XGBoost | 0.654637 | 0.655720 | 0.655720 | 0.668351 |
| K - nearest neighbors | 0.539516 | 0.648502 | 0.538073 | 0.627932 |
从表格中可以看出,Linear SVC和Logistic regression的准确率相对较高,接近0.70。不过,由于类别分布不均匀,仅依靠准确率不能全面评估分类器的有效性,还需要考虑其他指标,如精确率
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



