53、文本分类与主题识别:方法、性能与算法

文本分类与主题识别:方法、性能与算法

1. 信息检索评估指标

在信息检索和文本分类中,有四个重要的评估指标,它们能够帮助我们衡量分类器的性能。具体信息如下表所示:
| 指标名称 | 公式 |
| — | — |
| 精确率(Precision) | $\frac{tp}{tp + fp}$ |
| 召回率(Recall) | $\frac{tp}{tp + fn}$ |
| F - 度量(F - measure) | $\frac{2tp}{2tp + fp + fn}$ |
| 精确率 - 召回率均值(Precision - recall mean) | $\frac{tp(2tp + fn + fp)}{2(tp + fp)(tp + fn)}$ |

其中,$tp$ 表示真正例(True Positives),$fp$ 表示假正例(False Positives),$fn$ 表示假反例(False Negatives)。

2. 文本分类器的选择

我们使用了来自 Weka 包的几种分类器,包括 J48(C4.5,一种决策树算法)、OneR(基于规则的算法)、IBk(k - 最近邻算法)、SMO(支持向量机)、朴素贝叶斯(Naive Bayes 算法),还添加了一个简单的分类器 Polarity,它直接预测文档轮廓中最后一个值的符号。

2.1 不同分类器在贸易类别上的性能

以贸易类别为例,观察不同分类器在不同属性数量下的性能。从结果来看,J48、OneR、IBk 和 SMO 表现相当,但 SMO 有一个有趣的现象:当属性数量超过 100 时,召回率上升而

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值