在做对话任务时有个自动评价指标F1,用来评测预测句子相较于ground truth中实体的重复率,但是在计算时,F1的计算方法有两种,一种是计算单个的F1值,最后计算平均,称为Marco-F1;另外一种是首先计算整体准确率和召回率,最后在计算F1值,称之为Mirco-F1。
-
F1的计算公式:
F1=2*(P*R)/(P+R)
P是Precision,准确率
R是Recall,召回率 -
准确率和召回率的计算公式:
Precision=TP/(TP+FP)
Recall=TP/(TP+FN)真阳性(TP):预测为正P(Positive),实际为正(Truth,预测正确)
假阳性(FP):预测为正P(Positive),实际为负(False,预测错误)
假阴性(FN):预测为负N(Negative),实际为正(False,预测错误)
真阴性(TN):预测为负N(Negative),实际为负(True,预测正确)准确率衡量预测为正中有多少是对的
召回率表示正例中预测出多少