25、机器翻译中的动态预处理与歧义处理

机器翻译中的动态预处理与歧义处理

1. 动态规划算法与未来展望

在机器翻译领域,有一种基于动态规划(DP)的算法,其时间复杂度为 $O(|B|\cdot I^2)$,这里假设相邻块之间的过渡成本 $\Delta(b, b’)$ 能在常数时间内计算得出,$|B|$ 表示从对齐的句子对中可提取的块的数量。该算法在理论上十分有趣,因为它能在一致性限制下,高效解决任意长句子对和无限制短语级重排序的 NP 完全问题。

未来的工作可能会将不同的 DP 算法结合起来。例如,如果对齐交集仅部分覆盖源句和目标句,一致短语对的数量会显著增加。此时,基于栈的搜索可在一致性限制下高效找到短语对齐,这种算法可能有助于区分性地训练基于短语的系统。另外,单遍、从左到右的束搜索算法可扩展用于层次模型参数的解码,在适当的限制下,与标准的基于图表的解码器相比,可能会得到更高效的解码算法。

2. 层次模型的格解码

2.1 引言

在任何机器翻译系统中,一开始都会面临许多选择,这些选择通常涉及源语言表示的各个方面,如分词、形态分析和正字法归一化,它们都属于预处理决策。然而,很难确定哪种选择能带来更好的翻译效果。例如,是否将阿拉伯语的附着词拆分为不同的标记,中文分词器应采用多激进的策略等,答案往往是“视情况而定”。

为了解决这个问题,我们提出了一种新方法,用运行时的动态表示决策取代静态的预处理决策。其基本思想是,解码器的输入表示应涵盖所有可能的决策,而不是只采用单一的预处理歧义解决方案,并且解码器应能根据所有可用信息做出相关选择。我们受语音翻译的启发,发现保留单词的歧义性比翻译单一最佳转录结果能获得更好的性能。接下来,我们将展示如何扩展基于层次短语的模型解

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值