1. 对模型的泛化误差进行估计的标准称为性能度量
性能度量的标准有很多,不同的性能度量下各个模型的表现不同。 模型的好坏与具体的任务有关
2. 性能度量的标准
1)均方误差
回归任务最常用的性能度量 对于独立分布D和概率分布密度平p(.)
2) 误差和精度
多用于二分类问题 和多分类问题 误差:
精度:
对于独立分布D, 概率密度分布函数 p(x)
误差的一般表示方法 :
3) 查准率和查全率 (嘻嘻, 并没有那么难)
正例反例 我把一个样本判断为正例 如果这个样本是正例, 则我判断对了, 为真正例, 否则为假正例
实际情况 | 预测结果 | |
正例 | 反例 | |
正例 | TP (真正例) | FN(假反例) |
反例 | FP (假正例) | TN(真反例) |
查准率: 模型找出的符合条件的样本, 真正符合条件的占多少 找出的是不是都正确
查全率: 模型找出来的, 占样本中全部符合条件的样本的比例 能不能找全,找的有多全
R =
查全率和查准率是一对矛盾的度量。 一般来说查准率高时,查全率一般较低, 查全率高时, 查准率一般较低。
原因: 为了让查全率高尽可能多的增加选择样本的数量, 如果将所有的样本全部都选上,则查全率可以达到 100%, 插准率 最低为 P/M (取决于样本)。
为了让查准率高,需要选择尽可能把握大的, 因此难免会漏掉一些好的样本, 查全率变低。
P-R 图
在很多情形下, 可以根据学习器的预测结果对样例进行排序, 排在前面的是学习器认为最可能是正例的样本,排在最后的是学习器认为最不可能是正例的样本。
以查全率为横轴, 以查准率为纵轴, 得到了查准率和查全率的曲线, P-R 图片
如果模型A的曲线包围了模型B曲线则说明 模型A的表现比较好
如果模型A的曲线和模型B的曲线有交叉,则很难断定谁优谁劣。 如果一定要判断某个模型的好坏, 一种可靠的依据是比较曲线下方的面积。
平衡点(Break- Even Point)度量: 查准率等于查全率的取值