统计显著性测试与推理可重复性分析
在自然语言处理(NLP)和数据科学研究中,统计显著性测试和实验结果的可重复性是至关重要的。本文将介绍统计显著性测试的方法,以及如何分析机器学习研究结果的推理可重复性。
统计显著性测试的重要性与方法
统计显著性测试在信息检索领域已被用于增加效应和提高测试效力。然而,线性混合效应模型(LMEMs)和广义似然比检验(GLRTs)在元参数和数据属性变化下进行显著性测试的普遍适用性,在NLP和数据科学研究界尚未得到充分认识。
显著性测试与可靠性分析密切相关,模型可靠性的提高意味着在检测模型间显著差异时具有更高的效力。影响测试效力的主要因素包括显著性水平α、效应方差和测试集大小,通常只有测试集大小可由实验(数据集)设计者调整。可靠性分析可通过对模型组件的方差分析,找出测试效力低的可能原因。
常见的统计显著性测试方法有:
- 排列测试 :在标准设置下,与参数测试相比,排列测试能在不损失效力的情况下实现显著性评估。但它要求在固定元参数设置下选择一对模型,以评估结果差异的显著性。不过,Clark等人(2011)提出的排列测试允许纳入多个优化器运行,但该框架仅限于少量的成对比较,且缺乏根据测试数据属性区分显著性测试的能力。
- 似然比测试 :基于模型的GLRTs框架为元参数或数据属性变化下的统计显著性测试提供了统一的方法。其主要思想是使用像LMEMs这样的统计模型,基于机器学习系统的测试数据性能评估分数进行训练,并应用GLRTs的嵌套模型设置进行显著性测试。这种设置允许通过对句子层面不同元参数配置下的重复测量进行聚类,将可变性纳入显著性测试,从而考虑到
超级会员免费看
订阅专栏 解锁全文
959

被折叠的 条评论
为什么被折叠?



