基于模型的显著性检验在交互式机器翻译中的应用
在机器学习领域,评估模型性能的显著性是一项关键任务。本文将介绍如何使用基于线性混合效应模型(LMEM)的似然比检验(GLRT)来评估交互式机器翻译系统的性能差异,并探讨多个比较和元参数变化对结果的影响。
1. 嵌套模型设置
首先,我们重新考虑Kreutzer等人(2020)的交互式机器翻译实验。该研究的目标是对神经机器翻译系统进行微调,使用带有人类标记的机器翻译句子或机器翻译的人类后编辑版本。为了评估模型预测性能的可靠性,我们在响应变量$Y$(由多个在不同元参数设置下微调的RNN模型的TER分数组成)上训练了一个仅包含随机效应的LMEM。
为了评估基线模型与在标记或后编辑上微调的模型之间TER分数差异的统计显著性,我们进行了初步分析。假设我们只关注基线系统与在标记上微调的模型之间观察结果差异的统计显著性。由于每个RNN模型使用不同的随机种子训练了三次,我们首先对在人类注释上训练的模型的TER分数进行平均,并评估平均结果与基线结果之间差异的统计显著性。
最简单的建模方法是指定一个实现标准线性模型的LMEM,并在两个系统的评估分数数据上进行训练。对于由每个测试句子的TER分数组成的响应变量$Y$,我们得到以下模型:
[Y = \beta_0 + \beta_m \cdot I_m + \epsilon, \quad \epsilon \sim N(0, \sigma^2_{residual})]
该模型指定了基线总体均值的固定效应$\mu$,并使用指示函数$I_m$来激活表示在标记上微调与基线偏差的固定效应$\beta_m$。
为了进行GLRT,我们设置了受限模型:
[
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



