LLM(大语言模型)常用评测指标-MAP@R

MAP@R是一种用于评估信息检索系统和排序模型性能的指标,特别关注前R个结果的精确性。它通过计算平均精度在不同截断级别的值来衡量结果的相关性和排名。本文给出了计算方法和一个实际应用示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

MAP@R (Mean Average Precision at R)

是一种用于评估信息检索系统或排序模型效果的评价指标。它特别适用于那些返回一组相关结果的情况,例如搜索引擎或推荐系统。这里的“R”代表返回的相关结果的数量。MAP@R 考虑了结果的排名和相关性两个因素。

计算方法

  1. 计算平均精度 (Average Precision, AP):对于每个查询,首先计算其精度(Precision)在不同截断级别(即不同数量的返回结果)的值,然后计算这些精度值的平均值。精度是指检索到的相关文档数量与检索到的总文档数量的比值。
  2. 计算平均精度的平均值 (Mean AP):对所有查询的平均精度(AP)进行平均。如果是MAP@R,那么在计算每个查询的AP时,只考虑前R个结果。

应用场景

MAP@R 通常用于评估搜索引擎、推荐系统、文本检索、图像检索等领域中的模型性能,特别是在关注顶部结果的精确性时。

计算实例

假设我们有一个搜索引擎,它针对两个不同的搜索查询返回了以下结果(这里的“相关”和“不相关”是基于某种标准预先定义的):

  • 查询 1:

    • 返回的结果:[相关, 不相关, 相关, 不相关, 相关]
    • R = 3(我们只考虑前3个结果)
  • 查询 2:

    • 返回的结果:[相关, 相关, 不相关, 相关, 不相关]
    • R = 3

步骤

  1. 计算每个查询的平均精度 (AP):
  • 对于查询 1,只看前3个结果:

    • 第一个相关结果的精度 = 1/1
    • 第二个相关结果的精度 = 2/3
    • 第三个相关结果(不在前3个结果中)不计算。
    • AP1 = (1/1 + 2/3) / 2 = 0.83
  • 对于查询 2,只看前3个结果:

    • 第一个相关结果的精度 = 1/1
    • 第二个相关结果的精度 = 2/2
    • 第三个相关结果(不在前3个结果中)不计算。
    • AP2 = (1/1 + 2/2) / 2 = 1.00
  1. 计算 MAP@R:
  • MAP@3 = (AP1 + AP2) / 2 = (0.83 + 1.00) / 2 = 0.915

因此,在这个例子中,MAP@3的值是0.915。这意味着在前3个返回结果中,模型在这两个查询上的平均表现接近于91.5%的准确率。请注意,在实际应用中,通常会对大量查询进行此类计算,以得到更为可靠的平均值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值