23、马来语语料增强的印尼语 - 中文神经机器翻译

马来语语料增强的印尼语 - 中文神经机器翻译

1. 引言

在当今全球化的背景下,机器翻译技术的发展对于促进跨语言交流至关重要。基于深度学习的神经机器翻译(NMT)在有大量平行语料支持的情况下,能取得不错的效果,满足大部分有限机器翻译的需求。然而,全球超过7000种非通用语言面临着不同程度的平行语料匮乏问题,这使得低资源语言到中文的机器翻译成为研究焦点。

印度尼西亚作为东南亚重要国家,与中国在“全球海洋支点”战略和“一带一路”倡议推动下交流频繁。印尼语是印尼的官方语言,全球母语使用者约4500万,第二语言使用者超1.6亿,但印尼语 - 中文平行语料相对稀缺。为了高效服务于中印尼交流合作,我们尝试从语言资源建设的角度改进印尼语 - 中文机器翻译。

语言间的形态相似性可缓解语言资源不足的问题。例如,英式英语和美式英语形态相似,欧洲语言间有大量重叠词汇,东方语言如中文、日语、韩语和越南语也有超60%的重叠词汇。马来语和印尼语同属南岛语系马来 - 波利尼西亚语族,我们希望利用马来语语料增强印尼语语料,并通过混合平行语料训练改进的印尼语 - 中文NMT模型。

2. 相关工作

国际上对机器翻译的研究开展较早。1998年,美国国防高级研究计划局(DARPA)启动TIDES项目,旨在自动发现、提取、摘要和翻译多语言信息。2006年底,DARPA推出GALE项目,开发软硬件用于语音转录、翻译和过滤,以收集、分析和解读大量多语言文本和语音信息。此后,DARPA还发起了MADCAT、RATS和TRANSTAC等项目。这一时期海外研究主要聚焦于特定低资源语言,如阿拉伯语、普什图语和中文,研究方法从基于规则逐渐转向统计方法,最终确立了统计机器翻译的主导地位,同时推

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值