查准率与查全率

最新推荐文章于 2025-05-14 22:39:47 发布

原创最新推荐文章于 2025-05-14 22:39:47 发布 · 693 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #Machine Learning

机器学习同时被 2 个专栏收录

1 篇文章

订阅专栏

统计

1 篇文章

订阅专栏

文章目录

P o s i t i v e

数据中的正类数

N e g a t i v e

数据中的反类数

分类预测结果出现四种情况

$T r u e P o s i t i v e$ ---- 将正类预测为正类数, 真正例, 真阳性.

$F a l s e P o s i t i v e$ ---- 将负类预测为正类数, 假正例, 假阳性
在统计学假设检验中被称为第 I 类错误. 零假设 $H_0$ 为不是正类, 结果把它判定为正类而拒绝(reject) $H_0$ (incorrectly reject the null hypothesis[6], 弃真[3]). 测试怀孕为阳性, 事实上没有怀孕( $H_0$ 为没有怀孕).

p.s. 在统计学中, 一般零假设是一个被普遍接受的假设, 认为其它的观测数据或者现象是偶然的、没有什么新奇的、与观测到的现象没有什么关联, 而检验人员由自己所观测到的数据或者现象提出备择假设并试图用相反的证据使零假设无效[5], [7], [8]. 如 $H_0$ 地球不是宇宙的中心. 一位业余天文爱好者坐在那里观察星星、太阳、月亮绕着地球转, 而认为 $H_0$ 是无效假设, 犯了一类假阳性错误.

$F a l s e N e g a t i v e$ ---- 将正类预测为负类数, 假反例,
在统计学假设检验中被称为第 II 类错误. 零假设 $H_0$ 为负类, 结果把正类的判定为负类而接受(not reject) $H_0$ . 样本容量固定不变的情况下，想办法减少犯一类错误的概率可能会增加犯二类错误的概率, 反之亦然 [3]. 假设检验中, 固定样本容量的情况下, 一般控制一类发生的概率, 而不考虑二类发生的概率, 这种检验称为显著性检验 [3].

$T r u e N e g a t i v e$ ---- 将负类预测为负类数, 真反例,

所有情况加起来的总数为总的结果数.

$T P + F N + F P + T N = 总的结果数$ .

混淆矩阵 Confusion matrix

		实际数据	实际数据
		实际为正类	实际为负类
预测结果	预测为正类	TruePositive (with hit)	FalsePositive I 类错误
预测结果	预测为负类	FalseNegative II 类错误 (with miss)	TrueNegative

与统计学中的假设检验比较[5]

		$H_0$ 假设	$H_0$ 假设
		实际无效	实际为真
检验	判断为无效(reject $H_0$ )	TruePositive $1-\beta$	FalsePositive I 类错误 (弃真) $\alpha$
检验	判断为真(Don’t reject $H_0$ )	FalseNegative II 类错误 (取伪) $\beta$	TrueNegative $1-\alpha$

例

有13只动物 8 只猫 5 只狗

实际数据	Dog	Cat	Cat	Dog	Cat	Cat	Dog	Cat	Cat	Dog	Dog	Cat	Cat
预测结果	Dog	Dog	Cat	Dog	Cat	Cat	Dog	Cat	Dog	Cat	Cat	Dog	Cat

		实际数据	实际数据
		Cat	Dog
预测结果	预测为Cat	5	2
预测结果	预测为Dog	3	3

$5 ＋ 3 ＋ 2 ＋ 3 ＝ 13$

confusion marix

		实际数据	实际数据
		Cat	Non-Cat
预测结果	预测为Cat	TruePositive 5 (with hit)	FalsePositive I 类错误 2
预测结果	预测为Non-Cat	FalseNegative II 类错误 3 (with miss)	TrueNegative 3

查准率 Precision

所有预测为正类数的结果中确实是正类数的比例, 或者说预测的结果中确实是正类占结果中所有预测为正类数的比例.

预测结果中所有预测为正类数的结果: $T P + F P$ .

$Precision=\frac{TP}{TP+FP}$

主要受一类错误的影响.

挑出的好西瓜中有多少是真正的好西瓜
检索出的用户感兴趣的信息中有多少是真正用户感兴趣的

查全率, 召回率 Recall

所有的确实是正类数的样本在结果中被预测为正类数的比例, 或者说预测为正类的数占所有真正正类数的比例.

实际中所有真正正类数: $T P + F N$ .

$Recall=\frac{TP}{TP+FN}$

主要受二类错误的影响.

所有真正的好西瓜有多少被挑出来了
所有用户感兴趣的信息有多少被检索出来了

信息检索示例图示
precisionrecall

如何实现

学习器为测试样本产生一个实值或概率预测, 然后将这个预测概率值与一个分类阈值比较, 若大于阈值则分为正类, 否则分为反类. 若更重视查准率, 则阈值大一点, 则概率较大的为正例. 若更重视查全率, 则阈值小一点, 让那些更不可能是正类的样本, 即概率小的样本也划成正类. 也可以把预测概率值进行排序, 阈值作为截断点. 截断点前面作为正类. 后面作为反类. 可以想像成一个数值段, 截断点偏左端或者偏右端.

于是, 查准率大了查全率会小. 查准率小了查全率会大. 比如西瓜打分, 分越大瓜越好. 如果要高查准率则要选打分较高的那一部分, 即打分的有序降序序列上截断点靠左, 减少了一类错误假阳数, 更准确, 更有把握获得好瓜, 但是增加了二类错误假反例, 有一些好瓜可能被分为反类, 降低了查全率. 同样如果截断值较小, 靠有序降序分数右端, 好瓜基本上都被分类正类, 减少了二类错误把正类预测为负类的概率, 提高了查全率. 但是增加了一类错误假阳性判例, 降底了查准率.

综合查全率和查准率

希望有较高的查准率同时有较高的查全率, 即查的准又查的全.
倾向于高准确率
商品推荐系统中, 为了尽可能打扰用户, 希望推荐用户感兴趣的, 希望高准确率
倾向于高查全率
逃犯信息检索系统中, 希望尽可能少漏掉逃犯, 希望高的查全率

$F 1$ 综合考虑查全率和查准率

对于第一种要综合查全率和查准率来考虑. 则使用调和平均数进行表示.

$F1=\frac{2\times P\times R}{P+R}$

$F_\beta$ 侧重于查全率或查准率

对于第二种和第三种有所侧重的情况, 对二者使用加权调和平均. 权重分别为 $\alpha$ , $1-\alpha$ .

$F_\alpha = \frac{\alpha+1-\alpha}{\frac{\alpha}{P}+\frac{1-\alpha}{R}}=\frac{1}{\frac{\alpha}{P}+\frac{1-\alpha}{R}}=\frac{1}{\frac{\alpha R+(1-\alpha)P}{PR}}=\frac{PR}{\alpha R +(1-\alpha)P}$

令 $\alpha=\frac{1}{1+\beta^2}$ , $\beta>0$ , $0<\alpha< 1$ ,

$F_\beta=F_{\alpha=\frac{1}{1+\beta^2}}=\frac{PR}{\frac{1}{1+\beta^2} R +(1-\frac{1}{1+\beta^2})P}=\frac{(1+\beta^2)PR}{\beta^2P+R}$

又或者 $\frac{(1+\beta^2)PR}{\beta^2P+R}=\frac{1+\beta^2}{\frac{1}{P}+\frac{\beta^2}{R}}$ , 相当于权重分别为: $1$ , $\beta^2$

当 $\beta=1$ , $\alpha=\frac{1}{2}$ , $F_{\alpha=\frac{1}{2}}=F1$
hpr
$\beta<1$ , 则 $\alpha>\frac{1}{2}$ , 查准率 $P$ 的权重较大, 因此受查准率影响更大.

$\beta>1$ , 则 $\alpha<\frac{1}{2}$ , 查全率 $R$ 的权重较大, 因此受查全率影响更大.

又或者找一个效率函数 $E = E (P, R)$ 综合考虑查全率和查准率
构造 $E$ , 使得 $\frac{\partial E}{\partial P}=\frac{\partial E}{\partial R}$ , $E$ 综合考虑查全率和查准率, $P$ , $R$ 对于 $E$ 的变化是一样的.

构造 $E=1-\frac{1}{\alpha\frac{1}{P}+(1-\alpha)\frac{1}{R}}, 0\leq \alpha \leq 1$

更具体地, 令 $\alpha=\frac{1}{1+\beta^2}$ ; $\beta\rightarrow\infty, \alpha\rightarrow 0$ ; $\beta\rightarrow 0, \alpha\rightarrow 1$
$E=1-\frac{(1+\beta^2)PR}{\beta^2 P + R}$
$\because$ $\frac{\partial E}{\partial P}=-\frac{(1+\beta^2)R^2}{(\beta^2 P+R)^2}$ , $\frac{\partial E}{\partial R}=-\frac{(1+\beta^2)\beta^2P^2}{(\beta^2 P+R)^2}$ ;
$\frac{\partial E}{\partial P}/\frac{\partial E}{\partial R}=\frac{R^2}{\beta^2 P^2}$
$\therefore$ 当 $\frac{R}{P}=\beta$ 时, $\frac{\partial E}{\partial P}=\frac{\partial E}{\partial R}$
此也用于 $R$ 是 $\beta$ 倍的 $P$ 时的综合评价结果, 对查全率的重视程度是查准率的 $\beta$ 倍.

Ref.
[1] 李航统计学习第一版
[2] 周志华机器学习
[3] 浙江大学概率论与数理统计第三版
[4] https://en.wikipedia.org/wiki/Precision_and_recall
[5] https://en.wikipedia.org/wiki/Type_I_and_type_II_errors
[6] https://www.statisticshowto.datasciencecentral.com/false-positive-definition-and-examples/
[7] https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/statistics-definitions/type-i-error-type-ii-error-decision/
[8] https://en.wikipedia.org/wiki/Null_hypothesis
[9] https://blog.youkuaiyun.com/Tomxiaodai/article/details/81836769
[10]1995 Rijsbergen. Information Retrieval