23、马来语语料增强的印尼语 - 中文神经机器翻译-优快云博客

本文链接：https://blog.youkuaiyun.com/backprop5master/article/details/153722682

马来语语料增强的印尼语 - 中文神经机器翻译

1. 引言

在当今全球化的背景下，机器翻译技术的发展对于促进跨语言交流至关重要。基于深度学习的神经机器翻译（NMT）在有大量平行语料支持的情况下，能取得不错的效果，满足大部分有限机器翻译的需求。然而，全球超过7000种非通用语言面临着不同程度的平行语料匮乏问题，这使得低资源语言到中文的机器翻译成为研究焦点。

印度尼西亚作为东南亚重要国家，与中国在“全球海洋支点”战略和“一带一路”倡议推动下交流频繁。印尼语是印尼的官方语言，全球母语使用者约4500万，第二语言使用者超1.6亿，但印尼语 - 中文平行语料相对稀缺。为了高效服务于中印尼交流合作，我们尝试从语言资源建设的角度改进印尼语 - 中文机器翻译。

语言间的形态相似性可缓解语言资源不足的问题。例如，英式英语和美式英语形态相似，欧洲语言间有大量重叠词汇，东方语言如中文、日语、韩语和越南语也有超60%的重叠词汇。马来语和印尼语同属南岛语系马来 - 波利尼西亚语族，我们希望利用马来语语料增强印尼语语料，并通过混合平行语料训练改进的印尼语 - 中文NMT模型。

2. 相关工作

国际上对机器翻译的研究开展较早。1998年，美国国防高级研究计划局（DARPA）启动TIDES项目，旨在自动发现、提取、摘要和翻译多语言信息。2006年底，DARPA推出GALE项目，开发软硬件用于语音转录、翻译和过滤，以收集、分析和解读大量多语言文本和语音信息。此后，DARPA还发起了MADCAT、RATS和TRANSTAC等项目。这一时期海外研究主要聚焦于特定低资源语言，如阿拉伯语、普什图语和中文，研究方法从基于规则逐渐转向统计方法，最终确立了统计机器翻译的主导地位，同时推