多语言自然语言处理工具套件与教育数据挖掘领域特定语言探索
多语言自然语言处理工具套件评估
在自然语言处理(NLP)领域,对系统的主要模块进行评估是衡量其性能的重要环节。本次评估主要聚焦于词性标注器(PoS - tagger,CitiusTagger)和命名实体分类器(NE classifier,CitiusNEC)这两个模块,实验在葡萄牙语和英语两种语言上开展,并与其他NLP套件进行对比。
数据资源
- 语料库 :使用了多个语料库,如葡萄牙语的Bosque、EP News、BP News、Wikipedia,英语的IEER、SemCor等。其中SemCor语料库规模达455,597个标记,且有四种enamex类别的标注,其词性标签是预测所得而非手动修订。
- 地名词典 :英语地名词典从Freebase和DBpedia中提取,并补充了国家和首都列表以及该语言中最常见的姓名和姓氏。最终版本的规模分别为:人物922,767个、组织126,334个、地点351,151个和其他94,525个。
评估实验
- 词性标注器评估
- 葡萄牙语 :将贝叶斯词性标注器与FreeLing的隐马尔可夫模型(HMM)在四个语料库上进行对比,结果如下表所示:
| 语料库 | 规模 | CitiusTagger | FreeLing |
| ---- | ---- | ---- | ---- |
| B
- 葡萄牙语 :将贝叶斯词性标注器与FreeLing的隐马尔可夫模型(HMM)在四个语料库上进行对比,结果如下表所示:
超级会员免费看
订阅专栏 解锁全文
6658

被折叠的 条评论
为什么被折叠?



