23、印度语言机器翻译:挑战与解决方案

印度语言机器翻译:挑战与解决方案

1. 机器翻译类型概述

在机器翻译领域,有几种不同的翻译方法。基于中间语的机器翻译位于Vauquois三角形的顶部。当过渡到三角形顶部下方的生成侧时,就产生了基于转换的机器翻译(TBMT)。TBMT是基于规则的,但所需规则少得多,复杂度也低很多。例如,将“aap ko mujhe mithaii khilaanii padegii”翻译成孟加拉语时,不需要语义角色消歧规则。规则的数量和复杂度由语言对决定,语言对越接近,所需规则越少。对于类型学上接近的语言对,基于中间语且要求完全消歧的机器翻译有些过度了。

当语言对彼此非常接近时,可以进行直接翻译。理想的直接翻译只需逐词替换,但需要进行消歧。这类似于词性标注,源语言的单词用目标语言的单词标注,除了词义消歧外无需分析,除了维特比解码外无需生成。

2. 基于规则的机器翻译(RBMT)

在RBMT中,所有规则(无论是分析、转换还是生成规则)都由人类专家编写。因此,正确、完整地捕捉语言和翻译现象并制定规则的责任在于人类系统设计师。图7.7所示的流程是印度语言到印度语言机器翻译(ILILMT)的典型架构,这是2000 - 2006年由印度电子和信息技术部(MeitY)资助的一项联合活动。

分析侧包括形态处理、词性标注、组块分析、格标记计算(即确定格标记)、命名实体识别和词义消歧。为了生成目标文本,在进行词汇转换后,需要进行组块内(词组内单词之间)和组块间(词组之间)的一致性处理,然后才能得到目标文本。例如,生成的目标句子片段“raam ki bahan kaa chhotaa saa ghar”(英语:“the small house of Ram’s sister

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值