短语表片断:
this is ||| 领 用 ||| 0.000977302 4.27099e-06 8.07779e-05 3.56845e-09 2.718 |||
0-0 1-1 ||| 365 4416 1
this is ||| 首先 ||| 0.000143721 1.81006e-05 8.07779e-05 2.15e-05 2.718 ||| 0-0 ||| 2482 4416 1
this is ||| 高速 缓存 , 由 ||| 0.178358 0.000156158 8.07779e-05 8.03423e-12 2.718 ||| 1-3 ||| 2 4416 1
this is ||| 默认 为 ||| 0.000342009 0.000103925 8.07779e-05 1.16731e-05 2.718 ||| 0-0 1-1 ||| 1043 4416 1
this is ||| 默认 情况 ||| 0.00990875 2.07171e-05 8.07779e-05 3.97593e-07 2.718 ||| 0-0 1-1 ||| 36 4416 1
this is a ||| ) 也 有 ||| 0.356715 6.55787e-06 0.000413343 4.63203e-07 2.718 ||| 0-1 1-1 2-2 ||| 1 863 1
this is a ||| , ||| 5.28629e-07 8.32117e-07 0.000413343 0.0157819 2.718 ||| 1-0 ||| 674793 863 1
this is a ||| , 所以 这种 方式 ||| 0.178358 0.000431557 0.000413343 6.64195e-10 2.718 ||| 0-2 1-3 ||| 2 863 1
this is a ||| , 所以 这种 方式 的 ||| 0.178358 0.000431557 0.000413343 1.56475e-10 2.718 ||| 0-2 1-3 ||| 2 863 1
this is a ||| , 此 ||| 0.000147647 0.0017932 0.000413343 0.0422938 2.718 ||| 0-1 ||| 2416 863 1
this is a ||| , 由 两 ||| 0.178358 1.70212e-08 0.000413343 3.81715e-09 2.718 ||| 1-1 2-2 ||| 2 863 1
this is a ||| , 紧接着 会 出现 ||| 0.178358 1.23145e-05 0.000413343 5.77379e-12 2.718 ||| 1-2 2-3 ||| 2 863 1
this is a ||| , 这 ||| 0.000203519 0.00122255 0.000965008 0.0161279 2.718 ||| 0-1 ||| 4092 863 2
其中,红色的部分是概率,按顺序说明如下:
1 - inverse phrase translation probability, 反向短语翻译概率
2 - inverse lexical weighting,反向词汇化加权
3 - direct phrase translation probability, 正向短语翻译概率
4 - direct lexical weighting,正向词汇化加权
5 - phrase penalty (always exp(1) = 2.718),短语惩罚,小于一倾向于选择数量少(较长的)短语,大于一倾向于选择数量多(较短的)短语
粉色的部分是词对齐
绿色的部分是短语在语料中的频率
看了一下,老版本的Moses, 短语表在内存中大概是这个样子:
obj0
|
|------this
| |-----is
| | |----a
| | |-----collections("this is a" 的所有对应翻译)
| | |-----这是一个
| | |-----这是一
| | |-----这是一种
| | |。。。
| |---- collections ("this is" 的所有对应翻译)
| |---这是
| |---这个
| |---。。。
|
|-----Collections("this" 的所有对应翻译)
|----这
|----此
|----。。。
obj1
|
|------is
|-----Collections("is" 的所有对应翻译)
|----是
|----近
|----。。。
obj2
|
|------a
|-----Collections("a" 的所有对应翻译)
|----一个
|----一种
|----。。。