相关性的评价指标
- Pointwise评价指标:Area Under the Curve(AUC)
- Pairwise评价指标:正逆序比(Positive to Negative Ratio, PNR)
- Listwise评价指标:Discounted Cumulative Gain(DCG)
- 用AUC和PNR作为离线评价指标,用DCG评价模型在线上排序的效果
Pointwise评价指标
二分类评价指标
- 把测试集相关性档位转化为0/1
- 高,中两档合并,作为标签 y=1
- 低,无两档合并,作为标签 y=0
- 相关性模型输出预测值 p ∈ [ 0 , 1 ] p ∈ [0, 1] p∈[0,1]
- 用AUC评价模型的预测是否准确
ROC曲线与AUC值
- 现在有一个分类问题,图中的坐标系横坐标表示预测的概率,纵坐标表示其真实的类别
- 我们设定一个阈值,如果概率大于该阈值,那么就认为它是汉堡,比如图中大于了0.5,所以右侧的点都会被预测为汉堡,那么就说明三个预测准确,两个预测不准确
- 可以在右上角画出一个混淆矩阵
- 我们的阈值可以取 0 到 1 之间的任意数,所以我们可以得到很多个混淆矩阵
- 有没有办法能把所有的混淆矩阵表示在同一个二维空间内呢?这就是 Receiver Operator Characteristic (ROC)曲线
- 可以对混淆矩阵的值用公式算出来然后画到坐标轴上
- TPR是与TP(正预测成功)和FN(负预测失败)计算得来,我们希望TP越大越好,所以对于FPR相等的值,TPR越大越好
- 那么AUC值就能很好的反应出模型在ROC曲线上的效果,即AUC值越大,效果越好
- 如果是多分类的话:宏观AUC就是对每一个类别都画一个ROC曲线,求出对应的AUC值,最后对AUC值取某种平均。微观AUC的话,就是化归为真实类别和其他类别
Piarwise 评价指标
- 正逆序比 PNR
- 用户看到前面文档的概率大,我们希望前面的排序是正确的,所以不能只看正逆序比
Listwise评价指标
- 该指标会给前面的指标更大的权重
- 有 n 篇候选文档,根据模型打分做降序排列,把文档记为 d 1 , ⋅ ⋅ ⋅ , d