评估模型预测效果的方法
1、利用模型自带的score method来评估拟合model的预测效果;
2、利用cross validation来评估拟合model的预测效果,可以通过选用不同的scoring parameter来评估不同类型模型的预测效果;
3、利用metric functions来评估不用类型model的预测效果;
不同类型模型预测效果的评估方法
classification metrics
- ROC曲线,PR曲线
sklearn.metrics.precision_recall_curve(y_true,probas_pred,pos_label=None,sample_weight=None)
#适用于二分类问题;
#以某一threshold判断决策函数对某一sample的预测概率为p时,该sample是否为positive,如果P>threshold,则为positive,否则为negative;每一个threshold可以得到一个recall,一个precision,根据一系列threshold可以得到一系列的recall,precision,从而可以绘制PR曲线;
#该函数返回一系列threshod,recall,precision;
sklearn.metrics.roc_curve(y_true,y_score,pos_label=None,sample_weight=None,drop_intermediate=True)
#适用于二分类问题;
#返回threshold,tpr,fpr,根据这三个值可作出ROC曲线;
sklearn.metrics.balanced_accuracy_score(y_true,y_pred,sample_weight=None,adjusted=False)
#适用于二分类和多分类问题;
#主要用于处理imbalanced datasets。对于某一imbalanced datasets,如果其大部分label均为1,则即便模型均预测为1,其accuracy依然很高,这显然不能很好的反应该model的预测效果。balanced accuracy函数很好的克服了这点,能够更为有效的评估在imbalanced datasets下模型的预测效果,it is defined as the average of recall obtained on each class.
参考博文:
precision,recall and precision-recall curve
精确率(准确率、查准率、precision)、召回率(查全率、recall)、RoC曲线、AUC面积、PR曲线
机器学习:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线
python绘制precision-recall曲线、ROC曲线
- cohen_kappa
sklearn.metrics.cohen_kappa_score(y1,y2,labels=None,weights=None,sample_weight=None)
#返回cohen_kappa系数
#用于评估不同的注释者对于同一个dataset进行标记的一致性;