查准率与查全率


P o s i t i v e Positive Positive 数据中的正类数
N e g a t i v e Negative Negative 数据中的反类数

分类预测结果出现四种情况

T r u e P o s i t i v e TruePositive TruePositive ---- 将正类预测为正类数, 真正例, 真阳性.

F a l s e P o s i t i v e FalsePositive FalsePositive ---- 将负类预测为正类数, 假正例, 假阳性
在统计学假设检验中被称为第 I 类错误. 零假设 H 0 H_0 H0 为不是正类, 结果把它判定为正类而拒绝(reject) H 0 H_0 H0 (incorrectly reject the null hypothesis[6], 弃真[3]). 测试怀孕为阳性, 事实上没有怀孕( H 0 H_0 H0为没有怀孕).

p.s. 在统计学中, 一般零假设是一个被普遍接受的假设, 认为其它的观测数据或者现象是偶然的、没有什么新奇的、与观测到的现象没有什么关联, 而检验人员由自己所观测到的数据或者现象提出备择假设并试图用相反的证据使零假设无效[5], [7], [8]. 如 H 0 H_0 H0 地球不是宇宙的中心. 一位业余天文爱好者坐在那里观察星星、太阳、月亮绕着地球转, 而认为 H 0 H_0 H0是无效假设, 犯了一类假阳性错误.

F a l s e N e g a t i v e FalseNegative FalseNegative ---- 将正类预测为负类数, 假反例,
在统计学假设检验中被称为第 II 类错误. 零假设 H 0 H_0 H0 为负类, 结果把正类的判定为负类而接受(not reject) H 0 H_0 H0. 样本容量固定不变的情况下,想办法减少犯一类错误的概率可能会增加犯二类错误的概率, 反之亦然 [3]. 假设检验中, 固定样本容量的情况下, 一般控制一类发生的概率, 而不考虑二类发生的概率, 这种检验称为显著性检验 [3].

T r u e N e g a t i v e TrueNegative TrueNegative ---- 将负类预测为负类数, 真反例,

所有情况加起来的总数为总的结果数.

T P + F N + F P + T N = 总 的 结 果 数 TP+FN+FP+TN=总的结果数 TP+FN+FP+TN=.

混淆矩阵 Confusion matrix
实际数据实际数据
实际为正类实际为负类
预测结果预测为正类TruePositive
(with hit)
FalsePositive
I 类错误
预测结果预测为负类FalseNegative
II 类错误 (with miss)
TrueNegative

与统计学中的假设检验比较[5]

H 0 H_0 H0 假设 H 0 H_0 H0 假设
实际无效实际为真
检验判断为无效(reject H 0 H_0 H0)TruePositive
1 − β 1-\beta 1β
FalsePositive
I 类错误 (弃真)
α \alpha α
检验判断为真(Don’t reject H 0 H_0 H0)FalseNegative
II 类错误 (取伪)
β \beta β
TrueNegative
1 − α 1-\alpha 1α

有13只动物 8 只猫 5 只狗

实际数据DogCatCatDogCatCatDogCatCatDogDogCatCat
预测结果DogDogCatDogCatCatDogCatDogCatCatDogCat
实际数据实际数据
CatDog
预测结果预测为Cat52
预测结果预测为Dog33

5 + 3 + 2 + 3 = 13 5+3+2+3=13 532313

confusion marix

实际数据实际数据
CatNon-Cat
预测结果预测为CatTruePositive
5 (with hit)
FalsePositive
I 类错误 2
预测结果预测为Non-CatFalseNegative
II 类错误 3 (with miss)
TrueNegative
3
查准率 Precision

所有预测为正类数的结果中确实是正类数的比例, 或者说预测的结果中确实是正类占结果中所有预测为正类数的比例.

预测结果中所有预测为正类数的结果: T P + F P TP+FP TP+FP.

P r e c i s i o n = T P T P + F P Precision=\frac{TP}{TP+FP} Precision=TP+FPTP

主要受一类错误的影响.

  1. 挑出的好西瓜中有多少是真正的好西瓜
  2. 检索出的用户感兴趣的信息中有多少是真正用户感兴趣的
查全率, 召回率 Recall

所有的确实是正类数的样本在结果中被预测为正类数的比例, 或者说预测为正类的数占所有真正正类数的比例.

实际中所有真正正类数: T P + F N TP+FN TP+FN.

R e c a l l = T P T P + F N Recall=\frac{TP}{TP+FN} Recall=TP+FNTP

主要受二类错误的影响.

  1. 所有真正的好西瓜有多少被挑出来了
  2. 所有用户感兴趣的信息有多少被检索出来了

信息检索示例图示
precisionrecall

如何实现

学习器为测试样本产生一个实值或概率预测, 然后将这个预测概率值与一个分类阈值比较, 若大于阈值则分为正类, 否则分为反类. 若更重视查准率, 则阈值大一点, 则概率较大的为正例. 若更重视查全率, 则阈值小一点, 让那些更不可能是正类的样本, 即概率小的样本也划成正类. 也可以把预测概率值进行排序, 阈值作为截断点. 截断点前面作为正类. 后面作为反类. 可以想像成一个数值段, 截断点偏左端或者偏右端.

于是, 查准率大了查全率会小. 查准率小了查全率会大. 比如西瓜打分, 分越大瓜越好. 如果要高查准率则要选打分较高的那一部分, 即打分的有序降序序列上截断点靠左, 减少了一类错误假阳数, 更准确, 更有把握获得好瓜, 但是增加了二类错误假反例, 有一些好瓜可能被分为反类, 降低了查全率. 同样如果截断值较小, 靠有序降序分数右端, 好瓜基本上都被分类正类, 减少了二类错误把正类预测为负类的概率, 提高了查全率. 但是增加了一类错误假阳性判例, 降底了查准率.

综合查全率和查准率
  1. 希望有较高的查准率同时有较高的查全率, 即查的准又查的全.

  2. 倾向于高准确率
    商品推荐系统中, 为了尽可能打扰用户, 希望推荐用户感兴趣的, 希望高准确率

  3. 倾向于高查全率
    逃犯信息检索系统中, 希望尽可能少漏掉逃犯, 希望高的查全率

F 1 F1 F1 综合考虑查全率和查准率

对于第一种要综合查全率和查准率来考虑. 则使用调和平均数进行表示.

F 1 = 2 × P × R P + R F1=\frac{2\times P\times R}{P+R} F1=P+R2×P×R

F β F_\beta Fβ 侧重于查全率或查准率

对于第二种和第三种有所侧重的情况, 对二者使用加权调和平均. 权重分别为 α \alpha α, 1 − α 1-\alpha 1α.

F α = α + 1 − α α P + 1 − α R = 1 α P + 1 − α R = 1 α R + ( 1 − α ) P P R = P R α R + ( 1 − α ) P F_\alpha = \frac{\alpha+1-\alpha}{\frac{\alpha}{P}+\frac{1-\alpha}{R}}=\frac{1}{\frac{\alpha}{P}+\frac{1-\alpha}{R}}=\frac{1}{\frac{\alpha R+(1-\alpha)P}{PR}}=\frac{PR}{\alpha R +(1-\alpha)P} Fα=Pα+R1αα+1α=Pα+R1α1=PRαR+(1α)P1=αR+(1α)PPR

α = 1 1 + β 2 \alpha=\frac{1}{1+\beta^2} α=1+β21, β > 0 \beta>0 β>0, 0 < α < 1 0<\alpha< 1 0<α<1,

F β = F α = 1 1 + β 2 = P R 1 1 + β 2 R + ( 1 − 1 1 + β 2 ) P = ( 1 + β 2 ) P R β 2 P + R F_\beta=F_{\alpha=\frac{1}{1+\beta^2}}=\frac{PR}{\frac{1}{1+\beta^2} R +(1-\frac{1}{1+\beta^2})P}=\frac{(1+\beta^2)PR}{\beta^2P+R} Fβ=Fα=1+β21=1+β21R+(11+β21)PPR=β2P+R(1+β2)PR

又或者 ( 1 + β 2 ) P R β 2 P + R = 1 + β 2 1 P + β 2 R \frac{(1+\beta^2)PR}{\beta^2P+R}=\frac{1+\beta^2}{\frac{1}{P}+\frac{\beta^2}{R}} β2P+R(1+β2)PR=P1+Rβ21+β2, 相当于权重分别为: 1 1 1, β 2 \beta^2 β2

β = 1 \beta=1 β=1, α = 1 2 \alpha=\frac{1}{2} α=21, F α = 1 2 = F 1 F_{\alpha=\frac{1}{2}}=F1 Fα=21=F1
hpr
β < 1 \beta<1 β<1, 则 α > 1 2 \alpha>\frac{1}{2} α>21, 查准率 P P P 的权重较大, 因此受查准率影响更大.
hp
β > 1 \beta>1 β>1, 则 α < 1 2 \alpha<\frac{1}{2} α<21, 查全率 R R R 的权重较大, 因此受查全率影响更大.
hr
又或者找一个效率函数 E = E ( P , R ) E = E(P, R) E=E(P,R)综合考虑查全率和查准率
构造 E E E, 使得 ∂ E ∂ P = ∂ E ∂ R \frac{\partial E}{\partial P}=\frac{\partial E}{\partial R} PE=RE, E E E综合考虑查全率和查准率, P P P, R R R 对于 E E E 的变化是一样的.

构造 E = 1 − 1 α 1 P + ( 1 − α ) 1 R , 0 ≤ α ≤ 1 E=1-\frac{1}{\alpha\frac{1}{P}+(1-\alpha)\frac{1}{R}}, 0\leq \alpha \leq 1 E=1αP1+(1α)R11,0α1

更具体地, 令 α = 1 1 + β 2 \alpha=\frac{1}{1+\beta^2} α=1+β21; β → ∞ , α → 0 \beta\rightarrow\infty, \alpha\rightarrow 0 β,α0; β → 0 , α → 1 \beta\rightarrow 0, \alpha\rightarrow 1 β0,α1
E = 1 − ( 1 + β 2 ) P R β 2 P + R E=1-\frac{(1+\beta^2)PR}{\beta^2 P + R} E=1β2P+R(1+β2)PR
∵ \because ∂ E ∂ P = − ( 1 + β 2 ) R 2 ( β 2 P + R ) 2 \frac{\partial E}{\partial P}=-\frac{(1+\beta^2)R^2}{(\beta^2 P+R)^2} PE=(β2P+R)2(1+β2)R2, ∂ E ∂ R = − ( 1 + β 2 ) β 2 P 2 ( β 2 P + R ) 2 \frac{\partial E}{\partial R}=-\frac{(1+\beta^2)\beta^2P^2}{(\beta^2 P+R)^2} RE=(β2P+R)2(1+β2)β2P2;
∂ E ∂ P / ∂ E ∂ R = R 2 β 2 P 2 \frac{\partial E}{\partial P}/\frac{\partial E}{\partial R}=\frac{R^2}{\beta^2 P^2} PE/RE=β2P2R2
∴ \therefore R P = β \frac{R}{P}=\beta PR=β 时, ∂ E ∂ P = ∂ E ∂ R \frac{\partial E}{\partial P}=\frac{\partial E}{\partial R} PE=RE
此也用于 R R R β \beta β 倍的 P P P时的综合评价结果, 对查全率的重视程度是查准率的 β \beta β 倍.

Ref.
[1] 李航 统计学习 第一版
[2] 周志华 机器学习
[3] 浙江大学 概率论与数理统计 第三版
[4] https://en.wikipedia.org/wiki/Precision_and_recall
[5] https://en.wikipedia.org/wiki/Type_I_and_type_II_errors
[6] https://www.statisticshowto.datasciencecentral.com/false-positive-definition-and-examples/
[7] https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/statistics-definitions/type-i-error-type-ii-error-decision/
[8] https://en.wikipedia.org/wiki/Null_hypothesis
[9] https://blog.youkuaiyun.com/Tomxiaodai/article/details/81836769
[10]1995 Rijsbergen. Information Retrieval

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值