基于光谱估算土壤属性和类别
1. 科恩卡帕统计量
在数据不平衡的情况下,即某一类别的样本数量远多于其他类别时,仅使用总体准确率(OA)来评估预测模型会存在问题。因为模型可能会倾向于预测占主导地位的类别,从而获得较高的准确率,但这并不能真实反映模型的性能。为了解决这个问题,引入了科恩卡帕统计量。
科恩卡帕统计量是用于衡量预测类别和观测类别之间一致性的另一种指标,它通常将总体准确率与随机预测的准确率进行比较。其计算公式为:
[
\text{Cohen’s kappa} = \frac{\text{OA} - p_e}{1 - p_e}
]
其中,OA 是先前计算得到的总体准确率,$p_e$ 是随机预测时的期望准确率。
在 R 语言中,可以使用以下代码计算科恩卡帕统计量:
kappa <- function(obs, pred){
# create a confusion matrix between observed and predicted classes
cm = as.matrix(table(obs = obs, pred = pred))
# number of observations per class
rowsums = apply(cm, 1, sum)
# number of predictions per class
colsums = apply(cm, 2, sum)
n <- length(obs)
diag = diag(cm)
accuracy <- sum(diag) / n
p