评估方法:
在学习得到的模型投放使用之前,通常需要对其进行性能 评估。为此, 需使用一个“测试集”(testing set)来测试 模型对新样本的泛化能力,然后以测试集上的“测试误差 ”(testing error)作为泛化误差的近似。
我们假设测试集是从样本真实分布中独立采样获得,所以 测试集要和训练集中的样本尽量互斥。
给定一个已知的数据集,将数据集拆分成训练集S和测试集 T,通常的做法包括留出法、交叉验证法、自助法。
评估指标:
要评估模型的好坏光有评估方法还不行,还得确定评估指标。
所谓评估指标就是衡量模型泛化能力好坏的评估标准,反映了 任务需求;使用不同的评估指标往往会导致不同的评估结果。
在分类预测任务中,给定测试样例集,评估分类模型的性能就 是把对每一个待测样本的分类结果和它的真实标记比较。
因此,准确率和错误率是最常用的两种评估指标:
- 准确率就是分对样本占测试样本总数的比例
- 错误率就是分错样本占测试样本总数的比例
ROC曲线的绘制基于TPR和FPR,这里先说真正率和假正率的计算