23、统计机器翻译中基于短语搜索算法的优化与实践

统计机器翻译中基于短语搜索算法的优化与实践

1. 统计机器翻译中的搜索问题

在统计机器翻译(SMT)里,搜索(也叫解码或生成)的任务是在给定源语句 $f_{1}^{J}$ 的情况下,找出能使后验概率最大化的目标语言句子 $e_{1}^{I}$。这里采用基于短语的方法,将源语句分割成 $K$ 个短语。假设使用对数线性模型,包含组件模型 $h_{m}(·)$ 和缩放因子 $\lambda_{m}$($m = 1, …, M$),决策规则如下:
$\hat{e} {1}^{I}=\text{argmax} {I,e_{1}^{I}}{\text{max} {K,s {1}^{K}}\sum_{m = 1}^{M}\lambda_{m}h_{m}(e_{1}^{I}, s_{1}^{K}; f_{1}^{J})}$

我们需要对所有可能的目标语句 $e_{1}^{I}$ 和所有可能的分割 $s_{1}^{K}$ 进行最大化操作。但枚举所有目标语句不可行,这是一个困难的优化问题,具体要决定以下几点:
- 短语数量 $K$;
- 源语句的短语分割 $s_{1}^{K}$;
- 每个源短语 $\tilde{f}$ 的短语翻译 $\tilde{e}$。

不过,我们可以利用模型的结构特性。搜索可看作一系列决策 $(\tilde{e} {k}, b {k}, j_{k})$($k = 1, …, K$)。每一步,我们确定由起始和结束位置 $s_{k} = (b_{k}, j_{k})$ 标识的源短语 $\tilde{f} {k}$ 及其对应的翻译 $\tilde{e} {k}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值