[转载] 信息检索常用的评价指标（MAP，NDCG，ERR）_2.3 搜索引擎结果质量人工评测指标 mrr map err-优快云博客

本文详细介绍了信息检索领域中常见的评估指标，包括MAP、NDCG、ERR和F-score等，解释了这些指标的计算方法及其应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、MAP

Precision(p):

准确率(精确度)是指检索得到的文档中相关文档所占的比例，公式如下:

p r e c i s i o n = | { r e l e v a n t d o c u m e n t s } \cap { r e t r i e v e d d o c u m e n t s } | | { r e t r i e v e d d o c u m e n t s } |

$precision = \frac{\left | \left \{relevant ~ documents\right \} \cap \left \{retrieved~documents\right \}\right |}{\left | \left \{ retrieved~documents\right \} \right |}$

$precision@10$ 表示检索10个文档中包含相关所占的比例，即： $\left | \left \{ retrieved~documents \right \} \right |=10$

Recall(R):

召回率是指所有相关文档中被检索到的比例，公式如下:

r e c a l l = | { r e l e v a n t d o c u m e n t s } \cap { r e t r i e v e d d o c u m e n t s } | | { r e l e v a n t d o c u m e n t s } |

$recall = \frac {\left | \left \{ relevant~documents \right \} \cap \left \{ retrieved~documents\right \} \right |}{ \left | \left \{ relevant~documents \right \} \right |}$

Average precision(AveP):

由前面可知，准确率和召回率都只能衡量检索性能的一个方面，最理想的情况肯定是准确率和召回率都比较高。当我们想提高召回率的时候，肯定会影响准确率，所以可以把准确率看做是召回率的函数，即： $P=f(R)$ ，也就是随着召回率从0到1，准确率的变化情况。那么就可以对函数 $P=f(R)$ 在 $R$ 上进行积分，可以求 $P$ 的期望均值。公式如下:

A v e P = \int 10 P (r) d r = \sum k = 1 n P (k) Δ (k) = \sum n k = 1 ( P ( k ) \times r e l ( k ) ) n u m b e r o f r e l e v a n t d o c u m e n t s

$AveP = \int_{0}^{1}P(r)dr = \sum_{k=1}^{n}P(k)\Delta(k) = \frac{\sum_{k=1}^{n}(P(k)\times rel(k))}{number~of~relevant~ documents}$

其中 $rel(k)$ 表示第 $k$ 个文档是否相关，若相关则为1，否则为0， $P(k)$ 表示前 $k$ 个文档的准确率。 $AveP$ 的计算方式可以简单的认为是：

A v e P = 1 R \times \sum r = 1 R r p o s i t i o n ( r )

$AveP = \frac{1}{R}\times \sum_{r=1}^{R}\frac{r}{position(r)}$

其中 $R$ 表示相关文档的总个数， $position(r)$ 表示，结果列表从前往后看，第 $r$ 个相关文档在列表中的位置。比如，有三个相关文档，位置分别为1、3、6，那么 $AveP = \frac{1}{3}\times (\frac{1}{1}+\frac{2}{3}+\frac{3}{6})$ 。在编程的时候需要注意，位置和第i个相关文档，都是从1开始的，不是从0开始的。

$AveP$ 意义是在召回率从0到1逐步提高的同时，对每个 $R$ 位置上的 $P$ 进行相加，也即要保证准确率比较高，才能使最后的 $AveP$ 比较大。

Mean average precision(MAP):

通常会用多个查询语句来衡量检索系统的性能，所以应该对多个查询语句的AveP求均值(the mean of average precision scores)，即公式：

M A P = \sum Q q = 1 A v e P ( q ) Q

$MAP = \frac{\sum_{q=1}^{Q}AveP(q)}{Q}$

二、NDCG

在MAP计算公式中，文档只有相关不相关两种，而在nDCG中，文档的相关度可以分多个等级进行打分。

Cumulative Gain(CG):

表示前p个位置累计得到的效益，公式如下：

C G n = \sum i = 1 p r e l i

$CG_{n}=\sum_{i=1}^{p}rel_{i}$
其中

reli r e l i $rel_{i}$ 表示第

i i $i$ 个文档的相关度等级，如：2表示非常相关，1表示相关，0表示无关，-1表示垃圾文件。

Discounted cumulative gain(DCG)：

由于在 $CG_{p}$ 的计算中对位置信息不敏感，比如检索到了三个文档相关度依次是{3,-1,1}和{-1,1,3}，显然前面的排序更优，但是它们的 $CG$ 相同，所以要引入对位置信息的度量计算，既要考虑文档的相关度等级，也要考虑它所在的位置信息。假设每个位置按照从小到大的排序，它们的价值依次递减，如：可以假设第i个位置的价值是 $\frac{1}{log_{2}(i+1)}$ ，那么排在第i个位置的文档所产生的效益就是 $rel_{i} \times \frac{1}{log_{2}(i+1)} = \frac{rel_{i}}{log_{2}(i+1)}$ 。公式如下：

D C G p = \sum i = 1 p r e l i l o g 2 ( i + 1 ) = r e l 1 + \sum i = 2 p r e l i l o g 2 ( i + 1 )

$DCG_{p}=\sum_{i=1}^{p} \frac{rel_{i}}{log_{2}(i+1)}=rel_{1}+\sum_{i=2}^{p} \frac{rel_{i}}{log_{2}(i+1)}$

另一种比较常用的，用来增加相关度影响比重的 $DCG$ 计算方式是：

D C G p = \sum i = 1 p 2 r e l i - 1 l o g 2 ( i + 1 )

$DCG_{p} = \sum_{i=1}^{p} \frac{2^{rel_{i}}-1}{log_{2}(i+1)}$

Ideal DCG(IDCG)：

IDCG是理想情况下的DCG，即对于一个查询语句和p来说，DCG的最大值。公式如下：

I D C G p = \sum i = 1 | R E L | 2 r e l i - 1 l o g 2 ( i + 1 )

$IDCG_{p}=\sum_{i=1}^{\left | REL \right |} \frac {2^{rel_{i}}-1}{log_{2}(i+1)}$

其中 $\left | REL \right |$ 表示，文档按照相关性从大到小的顺序排序，取前p个文档组成的集合。也就是按照最优的方式对文档进行排序。

Normalize DCG(NDCG)：

由于每个查询语句所能检索到的结果文档集合长度不一， $p$ 值的不同会对 $DCG$ 的计算有较大的影响。所以不能对不同查询语句的 $DCG$ 进行求平均，需要进行归一化处理。 $NDCG$ 就是用 $IDCG$ 进行归一化处理，表示当前 $DCG$ 比 $IDCG$ 还差多大的距离。公式如下：

N D C G p = D C G p I D C G p

$NDCG_{p}=\frac {DCG_{p}}{IDCG_{p}}$

这样每个查询语句的 $NDCG_{p}$ 就是从0到1，不同查询语句之间就可以做比较，就可以求多个查询语句的平均 $NDCG_{p}$ 。
$NDCG@10$ 、 $NDCG@20$ 分别表示求 $p$ 为10和20的时候的 $NDCG$ 。

三、ERR

Mean reciprocal rank (MRR) ：

reciprocal rank是指，第一个正确答案的排名的倒数。MRR是指多个查询语句的排名倒数的均值。公式如下：

M R R = 1 | Q | \sum i = 1 | Q | 1 r a n k k

$MRR = \frac{1}{\left | Q \right |} \sum_{i=1}^{\left | Q \right |} \frac {1}{rank_{k}}$

其中 $rank_{k}$ 表示第 $i$ 个查询语句的第一个正确答案的排名。

Cascade Models:

之前的评分模型虽然考虑了位置自身的价值信息和位置上文档的相关度信息，但是没有考虑文档之间的相关性信息。一种考虑是，一个文档是否被用户点击和排在它前面的文档有很大的关系，比如排在前面的文档都是不相关文档，那么它被点击的概率就高，如果排它前面的文档都是非常相关的文档，那么它被点击的概率就很低。Cascade Models假设用户从排名由高到底依次查看文档，一旦文档满足了用户的需求，则停止查看后续的文档。用 $R_{i}$ 表示用户只看在位置 $i$ 上的文档后就不在需要查看其它文档的概率，显然文档的相关度越高， $R_{i}$ 越大。那么用户在位置 $i$ 停止的概率公式如下：

P P_{r} = \prod_{i = 1}^{r - 1} (1 - R_{i}) R_{r}

$PP_{r}=\prod_{i=1}^{r-1}(1-R_{i})R_{r}$

Expected reciprocal rank (ERR) ：

区别 $RR$ 是计算第一个相关文档的位置的倒数， $ERR$ 表示用户的需求被满足时停止的位置的倒数的期望。首先是计算用户在位置 $r$ 停止的概率 $PP_{r}$ ，如下所示：

P P r = \prod i = 1 r - 1 (1 - R i) R r

$PP_{r}=\prod_{i=1}^{r-1}(1-R_{i})R_{r}$

其中 $R_{i}$ 是关于文档相关度等级的函数，可以选取如下的函数：

R i = R (g i) = 2 g - 1 2 g m a x, g \in {0, 1, \dots, g m a x}

$R_{i}=R(g_{i})=\frac{2^{g}-1}{2^{g_{max}}},g\in\left \{ 0,1,\cdots ,g_{max} \right \}$

那么 $ERR$ 的计算公式如下：

E R R = \sum r = 1 n φ (r) P P r = \sum r = 1 n 1 r P P r = \sum r = 1 n 1 r \prod i = 1 r - 1 (1 - R i) R r

$ERR=\sum_{r=1}^{n}\varphi (r)PP_{r}=\sum_{r=1}^{n} \frac{1}{r}PP_{r} = \sum_{r=1}^{n} \frac {1}{r} \prod_{i=1}^{r-1}(1-R_{i})R_{r}$

更通用一点， $ERR$ 不一定计算用户需求满足时停止的位置的倒数的期望，可以是其它基于位置的函数 $\varphi (r)$ ，只要满足 $\varphi (0)=1$ ，且 $\varphi (r)\rightarrow 0$ 随着 $r\rightarrow \infty$ 。比如 $DCG$ 中的 $\varphi (r)=\frac {1}{log_{2}(r+1)}$ 。