一、模型评估
原则
训练误差小,测试误差(泛化误差的近似,即在新样本上的误差)小
实验方法
1. 留出法:划分训练集与测试集(训练集约占2/3~4/5)
(1)保证训练集测试集类别比例相似;
(2)多次随机划分,重复实验取平均值
2. p次k折交叉验证法:
(1)划分数据集为k个子集,每次训练k-1个子集,测试剩下的子集
(2)p次划分,重复实验取平均值
3. 自助法:有放回从数据集中得到训练集,训练集中会有重复样本,常用于数据集较小
评价指标
1. 回归
1)MAE(mean absolute error)
2)MAPE(mean absolute percentage error)
3)MSE(mean squared error)
2. 分类
1)错误率与精度
错误率:分类错误的样本数占样本总数的比例
精度:分类正确的样本数占样本总数的比例
2)precision、recall、F
若更重视 "查准率" ,则可选择排序中靠前的位置进行截断;若更重视 "查全率" ,则可选择靠后的位置进行截断
3)ROC与AUC
ROC曲线纵轴是recall,横坐标为FPR(即实际是负样本却预测为正样本的样本比例)
ROC面积是AUC,越接近于(0,1),模型越好
4)绘制PR曲线和ROC曲线方法
- 将分类模型预测出的样本概率数值排序
- 将概率阈值由1开始逐渐降低,按此顺序逐个把样本作为正例进行预测,每次可以计算出当前的P、R、FPR
- 以P为纵坐标,R为横坐标绘制PR曲线;以R为纵坐标,TPR为横坐标绘制ROC曲线
实际类别 | 分类模型 | threshold 为6 | threshold 为5 | threshold 为4 | threshold 为3 | threshold 为2 | threshold 为1 | |
+ | 5.2 | - | + | + | + | + | + | |
+ | 4.45 | - | - | + | + | + | + | |
- | 3.5 | - | - | - | + | + | + | |
- | 2.45 | - | - | - | - | + | + | |
- | 1.65 | - | - | - | - | - | + | |
0/0 | 1 / 1 | 2 / 2 | 2 / 3 | 2 / 4 | 2 / 5 | P | ||
0/2 | 1 / 2 | 2 / 2 | 2/ 2 | 2 / 2 | 2/ 2 | R | ||
0/3 | 0/3 | 1/3 | 2/3 | 3/3 | FPR |
总结
训练集用于训练,验证集用于模型选择和调参,测试集用于验证模型的泛化能力