印度语言机器翻译:挑战与解决方案
1. 机器翻译类型概述
在机器翻译领域,有几种不同的翻译方法。基于中间语的机器翻译位于Vauquois三角形的顶部。当过渡到三角形顶部下方的生成侧时,就产生了基于转换的机器翻译(TBMT)。TBMT是基于规则的,但所需规则少得多,复杂度也低很多。例如,将“aap ko mujhe mithaii khilaanii padegii”翻译成孟加拉语时,不需要语义角色消歧规则。规则的数量和复杂度由语言对决定,语言对越接近,所需规则越少。对于类型学上接近的语言对,基于中间语且要求完全消歧的机器翻译有些过度了。
当语言对彼此非常接近时,可以进行直接翻译。理想的直接翻译只需逐词替换,但需要进行消歧。这类似于词性标注,源语言的单词用目标语言的单词标注,除了词义消歧外无需分析,除了维特比解码外无需生成。
2. 基于规则的机器翻译(RBMT)
在RBMT中,所有规则(无论是分析、转换还是生成规则)都由人类专家编写。因此,正确、完整地捕捉语言和翻译现象并制定规则的责任在于人类系统设计师。图7.7所示的流程是印度语言到印度语言机器翻译(ILILMT)的典型架构,这是2000 - 2006年由印度电子和信息技术部(MeitY)资助的一项联合活动。
分析侧包括形态处理、词性标注、组块分析、格标记计算(即确定格标记)、命名实体识别和词义消歧。为了生成目标文本,在进行词汇转换后,需要进行组块内(词组内单词之间)和组块间(词组之间)的一致性处理,然后才能得到目标文本。例如,生成的目标句子片段“raam ki bahan kaa chhotaa saa ghar”(英语:“the small house of Ram’s sister
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



