介绍
“所有模型都是坏的,但有些模型是有用的”。我们建立模型之后,接下来就要去评估模型,确定这个模型是否‘有用’。当你费尽全力去建立完模型后,你会发现仅仅就是一些单个的数值或单个的曲线去告诉你你的模型到底是否能够派上用场。
在实际情况中,我们会用不同的度量去评估我们的模型,而度量的选择,完全取决于模型的类型和模型以后要做的事。下面我们就会学习到一些用于评价模型的常用度量和图表以及它们各自的使用场景。
内容
- 预测模型的类型
- 分类模型评价度量
- 混淆矩阵(Confusion Matrix)
- ROC曲线
- AUC(ROC曲线下面积)
- Lift(提升)和Gain(增益)
- K-S图
- 基尼系数
1.预测模型的类型
当说到预测模型时,我们会想到有回归模型和分类模型。用于评价这两种模型的度量是不相同的。我们首先要说的是分类问题。
在分类问题中,我们用两种算法:
- 分类输出型:算法像支持向量机和KNN那样,输出的是分类型数据。例如一个二分类问题,它的输出不是0就是1.
- 概率输出型:这个有逻辑回归、随机森林、梯度提升、Adaboost等算法,都是以概率作为输出的。要想把概率型输出变为分类型输出,只要为其设立一个阈值即可。
2.分类模型评价度量
混淆矩阵(Confusion Matrix)
判定方法:根据不同的模型选不同的参数。
原理:混淆矩阵是一个N X N矩阵,N为分