马来语语料增强的印尼语 - 中文神经机器翻译
1. 引言
在当今全球化的背景下,机器翻译技术的发展对于促进跨语言交流至关重要。基于深度学习的神经机器翻译(NMT)在有大量平行语料支持的情况下,能取得不错的效果,满足大部分有限机器翻译的需求。然而,全球超过7000种非通用语言面临着不同程度的平行语料匮乏问题,这使得低资源语言到中文的机器翻译成为研究焦点。
印度尼西亚作为东南亚重要国家,与中国在“全球海洋支点”战略和“一带一路”倡议推动下交流频繁。印尼语是印尼的官方语言,全球母语使用者约4500万,第二语言使用者超1.6亿,但印尼语 - 中文平行语料相对稀缺。为了高效服务于中印尼交流合作,我们尝试从语言资源建设的角度改进印尼语 - 中文机器翻译。
语言间的形态相似性可缓解语言资源不足的问题。例如,英式英语和美式英语形态相似,欧洲语言间有大量重叠词汇,东方语言如中文、日语、韩语和越南语也有超60%的重叠词汇。马来语和印尼语同属南岛语系马来 - 波利尼西亚语族,我们希望利用马来语语料增强印尼语语料,并通过混合平行语料训练改进的印尼语 - 中文NMT模型。
2. 相关工作
国际上对机器翻译的研究开展较早。1998年,美国国防高级研究计划局(DARPA)启动TIDES项目,旨在自动发现、提取、摘要和翻译多语言信息。2006年底,DARPA推出GALE项目,开发软硬件用于语音转录、翻译和过滤,以收集、分析和解读大量多语言文本和语音信息。此后,DARPA还发起了MADCAT、RATS和TRANSTAC等项目。这一时期海外研究主要聚焦于特定低资源语言,如阿拉伯语、普什图语和中文,研究方法从基于规则逐渐转向统计方法,最终确立了统计机器翻译的主导地位,同时推
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



