我们都知道混淆矩阵的定义,就不赘述了。
混淆矩阵通过分类模型的预测准确率或者说是错误率来评估分类模型的性能。
然而对于决策树来说,首先它是一个训练的过程,其实是没有预测行为的。然而我们知道可以根据乐观估计,也就是训练误差代替泛化误差来判断。
训练误差,在决策树最终成型之后,最终具有共同特征的大部分点代表了这个共同特征的类型,但是有些点即使也有这些特征,它们也像异类一样本身不属于这个大部分群体,但它们也被划分到了这个群体,这就是训练误差。
根据训练误差,很容易就把类划分为原本代表 a 类的被划分为 a 类的记录数;原本代表 a 类的但被划分为 b 类的记录数;原本代表 b 类的被划分为 b 类的记录数,原本代表 b 类的但被划分为 a 类的记录数……当特征数 n = 2 时,这就是混淆矩阵。