印度语言语料库发展现状
1. 引言
在过去二十五年里,印度语言语料库生成和词汇数据库编译领域取得了一些成果。众多知名机构和个人积极参与其中,使得这些工作在全球范围内受到了广泛关注和认可。
过去三十年,发展印度语言的语言处理和语言技术一直是国家目标之一。因为缺乏完善、数字化和处理过的语言语料库,就难以开发出先进、用户友好的工具、系统和技术,供全国不同社会文化边界和语域的人群使用。接下来,我们将介绍已开发的主要印度语言资源,这些资源对印度语言的自然语言处理(NLP)研究活动的发展起到了推动作用。
2. 科尔哈布尔印度英语语料库(KCIE)
2.1 起源与概况
印度本土语料库的发展,真正意义上始于1991年,当时在印度政府电子与技术部(DeitY)的支持下,开始为大多数印度语言生成数字文本语料库,用于各种NLP活动。不过,印度的语料库生成工作早在之前就已在科尔哈布尔的希瓦吉大学以个人层面展开。科尔哈布尔印度英语语料库(KCIE)是第一个印度语料库,它是按照布朗语料库(1964)和兰开斯特 - 奥斯陆 - 卑尔根语料库(LOB,1984)的规范系统开发的。
KCIE由现代印度英语的书面文本样本组成,旨在对英式英语、美式英语和印度英语进行对比。目前,它可在国际现代英语计算机档案馆(ICAME)获取,相关细节可在挪威卑尔根大学查询。该语料库约有一百万个印度英语单词,按比例从1978年出版的文本材料中抽取。文本样本来自15个不同的文本类别,以使其与布朗语料库和LOB语料库具有最大可比性。文本样本按照美国信息交换标准代码(ASCII)手动输入计算机,方便最终用户检索和访问。如今,KCIE被纳入国际英语语料库(ICE),作为印度英
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



