32、印度语言语料库现状与未来需求

印度语言语料库现状与未来需求

1. ILCI项目:印度语言语料库倡议

2015 年,印度各院校的学者团队完成了 ILCI(印度语言语料库倡议)项目的两个阶段。该项目以印地语为源语言,其他印度语言为目标语言,开发了 23 种印度语言的带标签平行翻译语料库。

  • 第一阶段(2009 - 2012)
    • 团队为项目涉及的 12 种印度语言各生成了 50,000 个词性标注的平行句子,涵盖健康和旅游两个主要领域。
    • 每种语言的语料库总共有 600,000 个注释句子,每个句子平均长度为 16 个或更多单词。
    • 以下是第一阶段(ILCI - 1)涉及的成员机构及其负责语言的信息:
      | 语言 | 机构/大学 |
      | — | — |
      | 孟加拉语 | 加尔各答印度统计研究所 |
      | 英语 | 新德里贾瓦哈拉尔·尼赫鲁大学 |
      | 古吉拉特语 | 艾哈迈达巴德古吉拉特大学 |
      | 印地语 | 新德里贾瓦哈拉尔·尼赫鲁大学 |
      | 孔卡尼语 | 果阿果阿大学 |
      | 马拉雅拉姆语 | 特里凡得琅印度信息技术与管理学院 - 喀拉拉邦 |
      | 马拉地语 | 孟买印度理工学院 |
      | 奥里亚语 | 布巴内斯瓦尔乌特卡尔大学 |
      | 旁遮普语 | 帕蒂亚拉旁遮普大学 |
      | 泰米尔语 | 坦贾武尔泰米尔大学 |
      | 泰卢固语 | 库帕姆德拉维达大学 |
      | 乌尔都语 | 新德里贾瓦哈拉尔·尼赫鲁大学 |
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值