印度语言语料库现状与未来需求
1. ILCI项目:印度语言语料库倡议
2015 年,印度各院校的学者团队完成了 ILCI(印度语言语料库倡议)项目的两个阶段。该项目以印地语为源语言,其他印度语言为目标语言,开发了 23 种印度语言的带标签平行翻译语料库。
- 第一阶段(2009 - 2012)
- 团队为项目涉及的 12 种印度语言各生成了 50,000 个词性标注的平行句子,涵盖健康和旅游两个主要领域。
- 每种语言的语料库总共有 600,000 个注释句子,每个句子平均长度为 16 个或更多单词。
- 以下是第一阶段(ILCI - 1)涉及的成员机构及其负责语言的信息:
| 语言 | 机构/大学 |
| — | — |
| 孟加拉语 | 加尔各答印度统计研究所 |
| 英语 | 新德里贾瓦哈拉尔·尼赫鲁大学 |
| 古吉拉特语 | 艾哈迈达巴德古吉拉特大学 |
| 印地语 | 新德里贾瓦哈拉尔·尼赫鲁大学 |
| 孔卡尼语 | 果阿果阿大学 |
| 马拉雅拉姆语 | 特里凡得琅印度信息技术与管理学院 - 喀拉拉邦 |
| 马拉地语 | 孟买印度理工学院 |
| 奥里亚语 | 布巴内斯瓦尔乌特卡尔大学 |
| 旁遮普语 | 帕蒂亚拉旁遮普大学 |
| 泰米尔语 | 坦贾武尔泰米尔大学 |
| 泰卢固语 | 库帕姆德拉维达大学 |
| 乌尔都语 | 新德里贾瓦哈拉尔·尼赫鲁大学 |
超级会员免费看
订阅专栏 解锁全文
355

被折叠的 条评论
为什么被折叠?



