自然语言处理和数据科学中的可靠性评估
1. 可靠性概述
可靠性与有效性密切相关。一方面,可靠性是有效性的必要但不充分条件;另一方面,在追求高可靠性时,有效性往往会丧失,比如过度简化测量程序或制定过于严格的注释说明。在很多情况下,可靠性被视为衡量测量是否充分的主要标准。然而,在自然语言处理(NLP)和数据科学的预测中,可靠性的概念并未得到明确界定。在数据注释中,有多种常用的指标来衡量可靠性,而对于模型预测的可靠性,则有另一套不同的衡量方法。
2. 术语解析:可靠性、一致性及其他
Krippendorff(2004)对可靠性给出了测量理论上的定义:一个研究程序在实施时,无论其实施环境如何,对相同的现象都能做出相同的响应,那么这个研究程序就是可靠的。
当“研究程序”和“实施环境”有了具体解释后,术语上的混淆就开始了。Krippendorff关注的是固定样本数据点由固定的人类编码员进行数据注释的可靠性,这里人类编码员是“研究程序”,他们不同的响应风格或不同的暴露环境则是“实施环境”。在本文中,另一种解释是将“研究程序”替换为机器学习模型,“实施环境”替换为模型优化中由于架构选择或元参数设置导致的可变性。
对于名义结果的测量可靠性,通常被称为一致性,这与连续结果的测量可靠性不同。一致性通常用于人类评分者代表研究程序的情况。基于上述测量理论的一般定义,内部评分者一致性(人类评分者在相同数据的重复试验中注释结果的一致性)类似于重测信度(在其他条件相同的情况下,同一测试在两次测试中的结果相关性);而评分者间一致性(两个或更多人类评分者在相同数据上注释结果的一致性)类似于测量理论中的平行形式信度(在其他条件相同的情况下,等效形式测试结果的相关性)。 </
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



