1 评价指标
1.1 常用评价指标
实际 | |||
1 | 0 | ||
预测 | 1 | TP | FP |
0 | FN | TN |
TP:预测为1,实际为1,预测正确
FP:预测为1,实际为0,预测错误
FN:预测为0,实际为1,预测错误
TN:预测为0,实际为0,预测正确
即:T、N表示预测是否正确,P、N表示预测值
因此,
T
P
+
F
P
TP+FP
TP+FP即预测为1的总数,
T
P
+
F
N
TP+FN
TP+FN即实际为1的总数,
F
P
+
T
N
FP+TN
FP+TN即实际为0的总数。
1.1.1 准确率-Accuracy
A
c
c
u
r
a
c
y
=
T
P
+
T
N
T
P
+
T
N
+
F
P
+
F
N
Accuracy = \frac{TP + TN}{TP + TN + FP + FN}
Accuracy=TP+TN+FP+FNTP+TN
作用:判断总的正确率。
优缺点:样本不平衡情况下,有局限性。
举例说明:数据集中,正样本占比0.95,负样本占比0.05。此时若将全部样本都预测为正样本,即可得到95%的正确率,这并不合理。
1.1.2 精确率-Precision
P
r
e
c
i
s
i
o
n
=
T
P
T
P
+
F
P
Precision= \frac{TP}{TP + FP}
Precision=TP+FPTP
T
P
TP
TP表示预测正确的正样本结果
T
P
+
F
P
TP + FP
TP+FP表示所有预测的正样本结果
即:在预测为正样本的结果中,有多少结果预测正确了。
精确率针对正样本,准确率则包括正负样本。
1.1.3 召回率-Recall
R
e
c
a
l
l
=
T
P
T
P
+
F
N
Recall= \frac{TP}{TP + FN}
Recall=TP+FNTP
T
P
TP
TP表示预测正确的正样本结果
T
P
+
F
N
TP + FN
TP+FN表示预测为正样本(P),预测正确(T)和预测为负样本(N),预测错误(F,那么该样本实际为正样本)。即为1的样本总数。
因此,召回率表示实际所有的正样本中被预测为正样本的概率。
1.1.4 F1-score
R
e
c
a
l
l
=
2
⋅
P
r
e
c
i
s
i
o
n
⋅
R
e
c
a
l
l
P
r
e
c
i
s
i
o
n
+
R
e
c
a
l
l
Recall= \frac{2 · Precision · Recall}{Precision + Recall}
Recall=Precision+Recall2⋅Precision⋅Recall
F1分数同时考虑了Precision 和Recall,兼顾两者,取一个平衡。
1.2 新理解的评价指标
灵敏度:
S
e
n
s
i
t
i
v
i
t
y
=
R
e
c
a
l
l
=
T
P
T
P
+
F
N
Sensitivity= Recall= \frac{TP}{TP + FN}
Sensitivity=Recall=TP+FNTP
特异度:特异度表示实际为负样本,正确的预测为负样本的概率。
S
p
e
c
i
f
i
c
i
t
y
=
T
N
F
P
+
T
N
Specificity=\frac{TN}{FP + TN}
Specificity=FP+TNTN
真正率:
T
P
R
=
S
e
n
s
i
t
i
v
i
t
y
=
R
e
c
a
l
l
=
T
P
T
P
+
F
N
TPR=Sensitivity= Recall= \frac{TP}{TP + FN}
TPR=Sensitivity=Recall=TP+FNTP
假正率:
F
P
R
=
1
−
S
p
e
c
i
f
i
c
i
t
y
=
1
−
T
N
F
P
+
T
N
=
F
P
F
P
+
T
N
FPR=1-Specificity=1-\frac{TN}{FP + TN} = \frac{FP}{FP + TN}
FPR=1−Specificity=1−FP+TNTN=FP+TNFP
继续举例:总样本中,95%是正样本,5%是负样本。用准确率有水分。
真正率只关注95%正样本中有多少是被真正覆盖的,而与那5%毫无关系。
假正率只关注5%负样本中有多少是被错误覆盖的,也与那95%毫无关系。
以上可以避免样本不平衡的问题,真正率和假正率因此作为ROC/AUC的指标。案例来源
1.2.1 ROC
ROC(Receiver Operating Characteristic,接受者操作特征)曲线,基于混淆矩阵得出。最早应用于雷达信号检测领域,用于区分信号与噪声。后来用于评价模型的预测能力。
ROC曲线通过遍历所有阈值来绘制整条曲线。
FPR表示模型虚报的响应程度,而TPR表示模型预测响应的覆盖程度。
我们希望:虚报的越少越好,覆盖的越多越好。即真正率越高,同时假正率越低(即ROC曲线越陡),那么模型的性能就越好。ROC曲线也无视样本不平衡。
1.2.2 AUC
ROC也会计曲线下的面积,叫做AUC。