基于隐马尔可夫模型的孔卡尼语词性标注及体育文章生成研究
基于隐马尔可夫模型的孔卡尼语词性标注
词性标注(PoS tagging),即给句子中的每个单词标注词性,也被称为词类消歧或语法标注。词性标注的方法有很多,包括隐马尔可夫模型(HMM)、支持向量机(SVM)、决策树、最大熵、条件随机场(CRF)和深度学习等。
在孔卡尼语词性标注方面,此前已有不少研究。例如,有使用NLTK工具包和50,000个孔卡尼语句子语料库的HMM词性标注器,其准确率为73.82%;还有使用不同领域句子构建的词性标注器,在不同测试集上展现出不同的准确率。
为了对孔卡尼语词性标注实验进行评估,我们先了解下其他印度语言使用HMM进行词性标注的情况,如下表所示:
| 序号 | 语言 | 数据集大小(单词) | 性能指标准确率(%) |
| ---- | ---- | ---- | ---- |
| 1 | 孟加拉语 | 100,000 | 89.00 |
| 2 | 阿萨姆语 | 271,890 | 89.21 |
| 3 | 僧伽罗语 | 90,551 | 90.00 |
| 4 | 旁遮普语 | 26,479 | 90.11 |
| 5 | 马拉雅拉姆语 | 15,245 | 90.50 |
| 6 | 泰卢固语 | 211,357 | 91.23 |
| 7 | 曼尼普尔语 | 2000 | 92.00 |
| 8 | 古吉拉特语 | 351 | 92.87 |
| 9 | 印地语 | 15,562 | 93.45 |
| 10 | 马拉地语 | 25,744 | 93.82 |
超级会员免费看
订阅专栏 解锁全文
4226

被折叠的 条评论
为什么被折叠?



