模型泛化评估实验设计和性能度量指标
实验设计
有hold-out,k-fold cross validation,和自助法。最受欢迎的是CV,自助法一般用于样本量比较小的case下。
性能指标
评估性能指标中如果不引入非均等代价的概念,对于regression有均方误差,对于分类有precision(TP/TP + FP)、recall(TPR = TP/TP + FN)、PR曲线、ROC曲线、FPR(FP/TN + FP)。ROC更看重模型在完成正样本准确定位的同时,泛化能力是否更好。如果带入非均等代价的概念,就是CC曲线。CC曲线通过cost(0,1)和cost(1,0)根据业务场景对不同的错误率分配权重,来评估模型的好坏。不同于PR和ROC,CC中的期望总体代价面积越小越好。
https://www.zhihu.com/question/63492375
知乎解释 -
本文探讨了模型泛化能力的评估方法,包括hold-out、k-fold交叉验证和自助法,其中交叉验证是常用选择,尤其适用于样本量较小的情况。在性能指标方面,介绍了如均方误差、精确率、召回率、PR曲线、ROC曲线和FPR等,并强调了ROC曲线在衡量模型正样本定位准确性和泛化能力上的重要性。此外,当涉及非均等代价时,引入了CC曲线,它根据业务场景调整错误成本,以更全面地评估模型表现。
1万+

被折叠的 条评论
为什么被折叠?



