文本分类与主题识别:方法、性能与算法
1. 信息检索评估指标
在信息检索和文本分类中,有四个重要的评估指标,它们能够帮助我们衡量分类器的性能。具体信息如下表所示:
| 指标名称 | 公式 |
| — | — |
| 精确率(Precision) | $\frac{tp}{tp + fp}$ |
| 召回率(Recall) | $\frac{tp}{tp + fn}$ |
| F - 度量(F - measure) | $\frac{2tp}{2tp + fp + fn}$ |
| 精确率 - 召回率均值(Precision - recall mean) | $\frac{tp(2tp + fn + fp)}{2(tp + fp)(tp + fn)}$ |
其中,$tp$ 表示真正例(True Positives),$fp$ 表示假正例(False Positives),$fn$ 表示假反例(False Negatives)。
2. 文本分类器的选择
我们使用了来自 Weka 包的几种分类器,包括 J48(C4.5,一种决策树算法)、OneR(基于规则的算法)、IBk(k - 最近邻算法)、SMO(支持向量机)、朴素贝叶斯(Naive Bayes 算法),还添加了一个简单的分类器 Polarity,它直接预测文档轮廓中最后一个值的符号。
2.1 不同分类器在贸易类别上的性能
以贸易类别为例,观察不同分类器在不同属性数量下的性能。从结果来看,J48、OneR、IBk 和 SMO 表现相当,但 SMO 有一个有趣的现象:当属性数量超过 100 时,召回率上升而
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



