这个分数是用来评估多名评估员对于一系列观测样本的评估的一致性。Fleiss Kappa分越高,说明分歧越小,大家做出的判断都差不多,反之分数越低,分歧越大。
维基百科上的分数和对应解释,一般0.8以上被认为基本完美的同意,0.6-0.8被认为大量的同意,以此类推。

现在有这样一堆数据:

表示有10个样本,和5种可以类别(A-E),每一行数字的总和都是14,说明有14个评估员。
先进行横向比较,PiP_iPi表明的是对于第i个样本,大家的一致程度, 其计算公式是这一行(所有数据的平方和-n)/(n*(n-1)),这里的n表示评估员个数,即14
对于第一行,则有:
P1=02+02+02+02+142−1414(14−1)≈0.213P_1 = \frac{0^2+0^2+0^2+0^2+14^2-14}{14(14-1)} \approx 0.213P1=14(14−1)02+02+

本文介绍了使用Fleiss' Kappa系数来评估多名评估员对样本评估一致性的方法,并详细解释了计算过程及结果解释。
最低0.47元/天 解锁文章
3491

被折叠的 条评论
为什么被折叠?



