模型评估

本文讨论了模型评估的局限性,如准确率、精确率、召回率和均方根误差的问题,并提出了解决方案,如使用平均准确率和AUC。介绍了ROC曲线和P-R曲线的特性,以及ROC曲线在不同样本分布变化下的稳定性。此外,文章还探讨了余弦距离在高维向量比较中的优势,以及在A/B测试中的应用。最后,提到了模型评估方法如Holdout检验、交叉验证和自助法,以及超参数调优的策略,如网格搜索、随机搜索和贝叶斯优化,并解释了过拟合和欠拟合的解决办法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 评估指标的局限性

知识点:
准确率(Accuracy),精确率(Precision),召回率(Recall),均方根误差(RMSE)

问题:准确率的局限性
当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率。所以,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。为了解决这个问题,可以使用更有效的平均准确率(每个类别下的样本准确率的算术平均)作为模型评估的指标。

问题:精确率与召回率的权衡
精确率:预测为正样本的数据中,真实正样本的比例
召回率:真实正样本中,正确预测的比例

Precision值和Recall值是既矛盾又统一的两个指标,为了提高Precision值,分 类器需要尽量在“更有把握”时才把样本预测为正样本,但此时往往会因为过于保 守而漏掉很多“没有把握”的正样本,导致Recall值降低

P-R曲线

问题:平方根误差的“意外”
RMSE能够很好地反应回归模型预测值与真实值的偏离程度。但在实际问题中,如果存在个别偏离程度非常大的离群点时,即使离群点数量非常少,也会让RMSE指标变得很差

解决方案:

  • 离群点是“噪声点”,过滤
  • 不是噪声点,进一步提高模型的预测能力,将离群点产生的机制建模进去
  • 鲁棒性更好的指标:平均绝对百分比误差MAPE,相当于把每个点的误差进行归一化,降低个别离群点带来的绝对误差的影响

2 ROC曲线
问题1 什么是ROC曲线?
横坐标FPR,纵坐标TPR。

FPR = FP/N
TPR = TP/P

问题2 如何绘制ROC曲线?
ROC曲线是通过不断移动分类器的“截断点”来生成曲线上的一组关键点:FPR,TPR

截断点就是区分正负预测结果的阈值

问题3 如何计算AUC?
AUC就是ROC曲线下的面积大小,该值能够量化地反应基于ROC曲线衡量出的模型性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值