扭曲对语法:一种高效的机器翻译规则构建方法
1. 扭曲对语法简介
扭曲对语法(Twisted Pair Grammar)是一种用于构建句法转移语法的高度受限环境,旨在简化和加速机器翻译(MT)系统的构建。其核心观点是,我们总能得到符合特定标准的合理可理解的翻译,这种翻译被称为“TPG 合规”翻译。其限制条件如下:
- 所有语言结构为二叉分支结构。
- 翻译过程中唯一的词序重排机制是二叉结构中的节点置换,无其他重排机制。
- 实义词直接翻译。
- 功能词可翻译、插入或删除。
- 单词和短语可置换,但仅在分配给源文本的二叉树结构节点的置换允许范围内。
以下是两个扭曲对结构的示例:
| 源语言(如印地语/乌尔都语) | 目标语言(英语) | 翻译结果 |
| — | — | — |
| shobhaa kamre men baiThii hai | Shobha is sitting in the room | Shobha is sitting in the room |
| siimaa ne vo kitaab dekhii jo mez par paRii Thii | Sima saw that book which was lying on the table | Sima saw that book which was lying on the table |
这个语法同时刻画了乌尔都语和英语的例子,具有可逆性。通过紧密耦合源语言和目标语言,我们可以利用目标语言的丰富知识来降低机器翻译过程的复杂性。不过,需要明确的是,虽然我们声称总能找到符合要求的翻译,但并非所有给定的翻译都符合这些
超级会员免费看
订阅专栏 解锁全文
700

被折叠的 条评论
为什么被折叠?



