Moses 解码工作原理研究 - 短语表

本文详细解析了短语表中的关键元素及其作用,包括概率分配、词对齐、短语频率等,并通过实例展示了Moses短语表在内存中的组织方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

短语表片断:


this is ||| 领 用 ||| 0.000977302 4.27099e-06 8.07779e-05 3.56845e-09 2.718 ||| 0-0 1-1 ||| 365 4416 1
this is ||| 首先 ||| 0.000143721 1.81006e-05 8.07779e-05 2.15e-05 2.718 ||| 0-0 ||| 2482 4416 1
this is ||| 高速 缓存 , 由 ||| 0.178358 0.000156158 8.07779e-05 8.03423e-12 2.718 ||| 1-3 ||| 2 4416 1
this is ||| 默认 为 ||| 0.000342009 0.000103925 8.07779e-05 1.16731e-05 2.718 ||| 0-0 1-1 ||| 1043 4416 1
this is ||| 默认 情况 ||| 0.00990875 2.07171e-05 8.07779e-05 3.97593e-07 2.718 ||| 0-0 1-1 ||| 36 4416 1
this is a ||| ) 也 有 ||| 0.356715 6.55787e-06 0.000413343 4.63203e-07 2.718 ||| 0-1 1-1 2-2 ||| 1 863 1
this is a ||| , ||| 5.28629e-07 8.32117e-07 0.000413343 0.0157819 2.718 ||| 1-0 ||| 674793 863 1
this is a ||| , 所以 这种 方式 ||| 0.178358 0.000431557 0.000413343 6.64195e-10 2.718 ||| 0-2 1-3 ||| 2 863 1
this is a ||| , 所以 这种 方式 的 ||| 0.178358 0.000431557 0.000413343 1.56475e-10 2.718 ||| 0-2 1-3 ||| 2 863 1
this is a ||| , 此 ||| 0.000147647 0.0017932 0.000413343 0.0422938 2.718 ||| 0-1 ||| 2416 863 1
this is a ||| , 由 两 ||| 0.178358 1.70212e-08 0.000413343 3.81715e-09 2.718 ||| 1-1 2-2 ||| 2 863 1
this is a ||| , 紧接着 会 出现 ||| 0.178358 1.23145e-05 0.000413343 5.77379e-12 2.718 ||| 1-2 2-3 ||| 2 863 1
this is a ||| , 这 ||| 0.000203519 0.00122255 0.000965008 0.0161279 2.718 ||| 0-1 ||| 4092 863 2

其中,红色的部分是概率,按顺序说明如下:

1 - inverse phrase translation probability, 反向短语翻译概率
2 - inverse lexical weighting,反向词汇化加权
3 - direct phrase translation probability, 正向短语翻译概率
4 - direct lexical weighting,正向词汇化加权
5 - phrase penalty (always exp(1) = 2.718),短语惩罚,小于一倾向于选择数量少(较长的)短语,大于一倾向于选择数量多(较短的)短语

粉色的部分是词对齐

绿色的部分是短语在语料中的频率


看了一下,老版本的Moses, 短语表在内存中大概是这个样子:


obj0
   |
   |------this
   |         |-----is
   |         |     |----a
   |         |     |-----collections("this is a" 的所有对应翻译)
   |         |              |-----这是一个
   |         |              |-----这是一
   |         |              |-----这是一种
   |         |              |。。。
   |         |---- collections ("this is" 的所有对应翻译)
   |                  |---这是
   |                  |---这个
   |                  |---。。。
   |                  
   |-----Collections("this" 的所有对应翻译)
             |----这
             |----此
             |----。。。

obj1
   |
   |------is
   |-----Collections("is" 的所有对应翻译)
             |----是
             |----近
             |----。。。

obj2
   |
   |------a
   |-----Collections("a" 的所有对应翻译)
             |----一个
             |----一种
             |----。。。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值