双半监督学习与对偶重建原理的深入解析
1. 无标签数据的似然最大化
在机器翻译领域,无标签数据的利用是提升翻译准确性的重要途径。对于无标签数据的似然最大化,存在不同的研究方向。
一种方式是通过最大似然训练加上边际概率约束,实验结果表明这种方法能显著提高准确性。同时,重要性采样中,采样大小 ( K ) 越大,翻译准确性越高,但计算成本也会增加,而较小的 ( K )(如 2 或 3)能在准确性提升和计算成本之间取得较好的平衡。并且,对偶模型 ( \theta_{YX} ) 的翻译质量越好,原模型 ( \theta_{XY} ) 能获得的提升就越大。
另一种方式是直接最大化目标语言句子的对数似然。对于句子 ( y \in M_Y ),其似然为 ( \log P(y) = \log \sum_{x\in X} P(y|x)P(x) )。结合似然目标,可得到负对数似然:
[
l(\theta_{XY}) = -\frac{1}{|B|} \sum_{(x,y)\in B} \log P(y|x; \theta_{XY}) - \lambda \frac{1}{|M_Y|} \sum_{y\in M_Y} \log \sum_{x\in X} P(y|x; \theta_{XY})P(x)
]
其中 ( \lambda ) 是控制双语数据似然和单语数据似然之间权衡的超参数。
为了使上述损失在实际中可计算,需要进行近似,得到:
[
l(\theta_{XY}) \approx -\frac{1}{|B|} \sum_{(x,y)\in B} \log P(y|x; \theta_{XY}) - \lambda \f
超级会员免费看
订阅专栏 解锁全文
1093

被折叠的 条评论
为什么被折叠?



