基于短语的机器翻译实现英语到泰卢固语的音译
1. 引言
自然语言处理(NLP)是一个广泛的领域,涵盖了文本摘要、翻译、情感分析、音译等众多主题。在印度这个多语言国家,对印度语言的计算机处理已经实践了数十年,NLP 领域也有大量研究成果。这些研究大致可分为两类:
- 开发独立于语言的技术 :专注于开发涉及数学/统计工具的更先进技术,例如用于文本摘要的基于模糊粗糙集的句子相似度度量、自然语言理解中的贝叶斯框架开发、用于 NLP 任务的开源工具包(如用于统计机器翻译的 Moses)以及将自然语言查询映射到数据库查询等。
- 开发特定语言的技术 :通常处理单语或双语 NLP 任务,很多此类工作涉及至少一种印度语言,如孟加拉语的计算机处理、印度语言对之间的神经机器翻译、英语到印地语翻译的基于因子的评估、机器辅助翻译、英语 - 旁遮普语机器翻译以及基于规则的马拉地语到英语机器翻译系统等。
本文的工作属于第二类,旨在开发一个从英语到泰卢固语的音译系统。音译是将一种语言(源语言)的文本转换为另一种语言(目标语言),同时保留源语言的语音特性,并受目标语言发音限制的过程。机器音译技术常用于机器翻译中,用于翻译词汇外的单词和命名实体,也可用于研究源语言的发音。
虽然有大量涉及英语和印度语言的 NLP 工作,但从英语进行音译的工作相对较少,且现有的少量工作主要涉及印度最流行的印地语。然而,泰卢固语属于达罗毗荼语系,与印欧语系的印地语在特征上有很大不同,因此为英语到印地语音译开发的方案可能不适用于泰卢固语。从这个角度来看,本文的工作具有开创性。
2. 文献综述
-
<
超级会员免费看
订阅专栏 解锁全文
58

被折叠的 条评论
为什么被折叠?



