12、基于模型的显著性检验在交互式机器翻译中的应用

基于模型的显著性检验在交互式机器翻译中的应用

在机器学习领域,评估模型性能的显著性是一项关键任务。本文将介绍如何使用基于线性混合效应模型(LMEM)的似然比检验(GLRT)来评估交互式机器翻译系统的性能差异,并探讨多个比较和元参数变化对结果的影响。

1. 嵌套模型设置

首先,我们重新考虑Kreutzer等人(2020)的交互式机器翻译实验。该研究的目标是对神经机器翻译系统进行微调,使用带有人类标记的机器翻译句子或机器翻译的人类后编辑版本。为了评估模型预测性能的可靠性,我们在响应变量$Y$(由多个在不同元参数设置下微调的RNN模型的TER分数组成)上训练了一个仅包含随机效应的LMEM。

为了评估基线模型与在标记或后编辑上微调的模型之间TER分数差异的统计显著性,我们进行了初步分析。假设我们只关注基线系统与在标记上微调的模型之间观察结果差异的统计显著性。由于每个RNN模型使用不同的随机种子训练了三次,我们首先对在人类注释上训练的模型的TER分数进行平均,并评估平均结果与基线结果之间差异的统计显著性。

最简单的建模方法是指定一个实现标准线性模型的LMEM,并在两个系统的评估分数数据上进行训练。对于由每个测试句子的TER分数组成的响应变量$Y$,我们得到以下模型:
[Y = \beta_0 + \beta_m \cdot I_m + \epsilon, \quad \epsilon \sim N(0, \sigma^2_{residual})]
该模型指定了基线总体均值的固定效应$\mu$,并使用指示函数$I_m$来激活表示在标记上微调与基线偏差的固定效应$\beta_m$。

为了进行GLRT,我们设置了受限模型:
[

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值