知识点文本检索常用的评价指标:MAP、nDCG、ERR、F-score/F-measure以及附加的Precision、Recall、AveP、CG、DCG、IDCG、MRR、cascade models
而ROC曲线及其度量指标AUC主要用于分类和识别
一,MAP
Precision(P):
准确率(精确度)是指检索得到的文档中相关文档所占的比例,公式如下:
precision=|{
relevant documents}∩{
retrieved documents}||{
retrieved documents}|
precision@10表示检索10个文档中包含相关所占的比例,即:|{retrieved documents}| = 10。
Recall(R):
召回率是指所有相关文档中被检索到的比例,公式如下:
recall=|{
relevant documents}∩{
retrieved documents}||{
relevant documents}|
Average precision(AveP):
由前面可知,准确率和召回率都只能衡量检索性能的一个方面,最理想的情况肯定是准确率和召回率都比较高。当我们想提高召回率的时候,肯定会影响准确率,所以可以把准确率看做是召回率的函数,即:P=f(R),也就是随着召回率从0到1,准确率的变化情况。那么就可以对函数P=f(R)在R上进行积分,可以求
AveP=∫10P(r)dr=∑k=1nP(k)Δ(k)=∑nk=1(P(k)×rel(k))number of relevant documents
其中rel(k)表示第k个文档是否相关,若相关则为1,否则为0,P(k)