预测模型构建与性能评估
1. 模型性能评估基础
在评估预测模型时,使用训练集(样本内数据)的误差来评估性能往往会高估模型的实际表现。例如,样本内数据的AUC(曲线下面积)为0.98,而样本外数据的AUC仅为0.85。部分用于衡量二分类器性能的方法同样适用于多分类器,如误分类误差和混淆矩阵依然有效,并且ROC曲线和AUC也有对应的多分类扩展形式。
为了准确估计预测模型部署后的预期性能,需要在训练集之外的数据上进行测试。常见做法是将可用的标注数据划分为两个子集:
- 训练集 :约占可用数据的三分之二,用于拟合普通最小二乘模型。
- 测试集 :占剩余的三分之一,仅用于确定模型性能,不参与模型训练。
测试集的大小通常占数据的25% - 35%,但并没有严格的规定。需要注意的是,随着训练数据集规模的缩小,训练好的模型性能会下降,从训练集中取出过多数据可能会对最终性能产生不利影响。
除了上述固定划分训练集和测试集的方法,还有一种称为n折交叉验证的方法。其流程如下:
graph LR
A[数据集] --> B[划分为n个不相交且大小大致相等的子集]
B --> C[第1次训练和测试:第1个子集用于测试,其余n - 1个子集用于训练]
B --> D[第2次训练和测试:第2个子集用于测试,其余n - 1个子集用于训练]
B --> E[...依次类推,直到所有子集都被用于测试]
C --> F[计算预测误差估计值和误差范围]
超级会员免费看
订阅专栏 解锁全文
1877

被折叠的 条评论
为什么被折叠?



