机器学习(ML), 自然语言处理(NLP), 信息检索(IR)等领域, 评估(Evaluation)是一个必要的工作, 而其评价指标往往有如下几点: 准确率(Accuracy), 精确率(Precision), 召回率(Recall) 和 F1-Measure.(注:相对来说,IR 的 ground truth 很多时候是一个 Ordered List, 而不是一个 Bool 类型的 Unordered Collection,在都找到的情况下,排在第三名还是第四名损失并不是很大,而排在第一名和第一百名,虽然都是“找到了”,但是意义是不一样的,因此更多可能适用于 MAP 之类评估指标.)
现在我先假定一个具体场景作为例子.
假如某个班级有男生 80 人, 女生20人, 共计 100 人. 目标是找出所有女生. 现在工作人员挑选出 50 个人, 其中 20 人是女生, 另外还错误的把 30 个男生也当作女生挑选出来了. 作为评估者的你需要来评估(evaluation)下他的工作
首先我们可以计算准确率(accuracy), 其定义是: 对于给定的测试数据集,分类器正确分类的样本数与总样本数之比. 也就是损失函数是0-1损失时测试数据集上的准确率[1].
这样说听起来有点抽象,简单说就是,前面的场景中,实际情况是那个班级有男的和女的两类,某人(也就是定义中所说的分类器)他又把班级中的人分为男女两类. accuracy 需要得到的是工作人员分正确的人占总人数的比例. 很容易,我们可以得到:他把其中70(20女+50男)人判定正确了, 而总人数是100人,所以它的 accuracy 就是70 %(70 / 100).
由准确率,我们的确可以在一些场合,从某种意义上得到一个分类器是否有效,但它并不总是能有效的评价一个分类器的工作.
举个例子:
google 抓取了 argcv 100个页面,而它索引中共有10,000,000个页面, 随机抽一个页面,分类下, 这是不是 argcv
的页面呢?如果以 accuracy 来判断我的工作,那我会把所有的页面都判断为"不是 argcv 的页面",
因为我这样效率非常高(return false, 一句话), 而 accuracy
已经到了99.999%(9,999,900/10,000,000), 完爆其它很多分类器辛辛苦苦算的值, 而我这个算法显然不是需求期待的,
那怎么解决呢?这就是 precision, recall 和 f1-measure 出场的时间了.
再说 precision, recall 和 f1-measure 之前, 我们需要先需要定义 TP, FN, FP, TN 四种分类情况.
按照前面例子, 我们需要从一个班级中的人中寻找所有女生, 如果把这个任务当成一个分类器的话, 那么女生就是我们需要的, 而男生不是, 所以我们称女生为"正类", 而男生为"负类".
实际上是相关的(Relevant), 正类 | 实际上是无关(NonRelevant), 负类 | |
---|---|---|
被检索到(Retrieved),被判定是的 | true positives (TP 正类判定为正类, 例子中就是正确的判定"这位是女生") | false positives (FP 负类判定为正类,“存伪”, 例子中就是分明是男生却判断为女生, 当下伪娘横行, 这个错常有人犯) |
未被检索到(Not Retrieved),被判定不是的 | false negatives (FN 正类判定为负类,“去真”, 例子中就是, 分明是女生, 这哥们却判断为男生–梁山伯同学犯的错就是这个) | true negatives (TN 负类判定为负类, 也就是一个男生被判断为男生, 像我这样的纯爷们一准儿就会在此处) |
可以很容易看出, 所谓 TRUE/FALSE 表示从结果是否分对了, Positive/Negative 表示我们认为的是"是"还是"不是".
代入这张表, 我们可以很容易得到这几个值:
Relevant | NonRelevant | |
---|---|---|
Retrieved | TP = 20 | FP = 30 |
Not Retrieved | FN = 0 | TN = 50 |
然后我们可以简单计算:
精确率(precision)的公式是 P = T P T P + F P \frac{TP}{TP+FP} TP+FPTP
它计算的是所有"正确被检索的结果(TP)"占所有"实际被检索到的(TP+FP)"的比例.
在例子中就是希望知道工作人员得到的所有人中, 正确的人(也就是女生)占有的比例. 所以其 precision 也就是40%(20女生/(20女生+30误判为女生的男生)).
召回率(recall)的公式是 R =
T
P
T
P
+
F
N
\frac{TP}{TP+FN}
TP+FNTP
它计算的是所有"正确被检索的结果(TP)"占所有"应该检索到的结果(TP+FN)"的比例.
在例子中就是希望知道此君得到的女生占本班中所有女生的比例, 所以其 recall 也就是100%(20女生/(20女生+ 0 误判为男生的女生))
F1 值就是精确值和召回率的调和均值, 也就是 2 F 1 \frac{2}{F1} F12 = 1 P \frac{1}{P} P1 + 1 R \frac{1}{R} R1
调整下也就是: F1 = 2 ∗ P ∗ R P + R \frac{2 * P * R}{P + R} P+R2∗P∗R = 2 T P 2 T P + F P + F N \frac{2TP}{2TP + FP + FN} 2TP+FP+FN2TP
例子中 F1-measure 也就是约为 57.143%( 2 ∗ 0.4 ∗ 1 0.4 + 1 \frac{2 * 0.4 * 1}{0.4 + 1} 0.4+12∗0.4∗1 or 2 ∗ 20 2 ∗ 20 + 30 + 0 \frac{2 * 20}{2*20 +30+0} 2∗20+30+02∗20).
需要说明的是, 有人[3]列了这样个公式将 F-measure 一般化., 对非负实数β
·
Fβ = ( β 2 + 1 ) ∗ P ∗ R β 2 ∗ P + R \frac{(β^2 +1)∗P*R} {β^2*P+R} β2∗P+R(β2+1)∗P∗R
·F1-measure 认为精确率和召回率的权重是一样的, 但有些场景下, 我们可能认为精确率会更加重要, 调整参数 \betaβ , 使用 F-measure 可以帮助我们更好的 evaluate 结果.