文本分类:从精度、召回率到多分类器投票
1. 不同SVM分类器的精度对比
在文本分类中,不同的SVM分类器表现各异。NuSVC是最准确的SVM分类器,略高于LinearSVC,而SVC的准确性远低于前两者。这些准确性差异是由不同的算法实现和默认参数导致的。若想了解这些具体实现,可访问链接: http://scikit - learn.org/stable/modules/svm.html 。
2. 分类器的精度和召回率
2.1 基本概念
除了准确性,还有许多其他指标用于评估分类器,其中最常见的两个是精度(Precision)和召回率(Recall)。在理解这两个指标之前,需要先了解假阳性(False Positives)和假阴性(False Negatives)。假阳性是指分类器将一个特征集错误地分类到某个标签下;假阴性则是指分类器未能将一个特征集分类到它应该属于的标签下。在二元分类器中,这两种错误可能同时发生。
例如,一个分类器将一篇电影评论分类为“积极(pos)”,而实际上它应该是“消极(neg)”,这对于“积极”标签来说是一个假阳性,对于“消极”标签来说是一个假阴性。如果分类器正确地猜测为“消极”,那么对于“消极”标签来说就是一个真阳性,对于“积极”标签来说就是一个真阴性。
精度是指缺乏假阳性的程度,召回率是指缺乏假阴性的程度。通常情况下,这两个指标是相互竞争的:分类器越精确,召回率就越低,反之亦然。
超级会员免费看
订阅专栏 解锁全文
858

被折叠的 条评论
为什么被折叠?



