基于生成对抗网络的印地语罗马化转写文本语言识别
1. 引言
语言识别(LID)是自然语言处理(NLP)中任何任务的关键问题之一,也是NLP中最基本的问题之一。对于处理未知语言的文本,确定文本所属的自然语言至关重要。随着互联网在我们生活中的普及,我们被各种数字媒体和文本内容所包围,这些内容使用自然语言编写。然而,当对用于传达语言含义的文字系统一无所知时,这项任务就变得复杂起来。
不同语言在音素集合上或多或少是完整的,其字符发音或多个音节有助于实现所有语音。因此,文本可以进行转写,即使用其他语言的文字系统书写,其中单词和音节在语音上相似,但在另一种语言中含义完全不同。翻译此类文本的第一步是检测该转写文本想要传达的是哪种语言。
在印度语言,特别是印地语的背景下,需要构建一个模型来识别其转写形式。如今,智能手机和计算机几乎无处不在,大多数交流都是通过数字方式进行的。我们使用键盘生成内容和表达想法,而键盘默认使用罗马字母,即简单的26个英文字母。虽然有天城文键盘,但使用起来繁琐且不便,这导致人们用罗马字母输入他们的语言。
这些用罗马字母书写的句子可能在罗马字母中意义不大或毫无意义,但在语音上与母语非常相似,读出来时听起来就像用母语说话一样,特别是在印地语的情况下。检测和标记此类文本是一个具有挑战性且新颖的研究领域。由于不同文字系统的局限性,许多可用于轻松分类语言的特征丢失了,因此检测和标记在语音上与预期书写语言相似的文本具有挑战性。
当前最先进的模型要么基于统计计算,要么基于严格监督学习的神经网络转写模型。本文提出了一种半监督性质的新方法。尽管当前模型被广泛使用,但仍存在不足,有改进的空间。当前的神经机器转写系统使用最大似然估计(MLE)原则来训练模
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



