阿尔巴尼亚语问题分类研究
1. 背景与相关工作
在问题分类任务中,主要聚焦于两个方向:问题分类类别和问题分类方法与系统。问题类型可根据其共同属性进行分类,常见的问题类型包括列表、事实性、定义、因果、假设、程序性、确认性问题以及关系等。
目前,在阿尔巴尼亚语的问题分类领域尚未有相关研究。虽然有针对阿尔巴尼亚语的基于事实性问题的问答系统,但未采用问题分类组件,仅依赖预定义的命名实体(NE)。而且,对于阿尔巴尼亚语,命名实体识别(NER)通常只是实验性任务,且没有公开可用的整合好的NE注释语料库。因此,我们将重点关注非阿尔巴尼亚语的相关背景工作。
以下是一些常用的问题分类数据集和方法:
| 数据集/方法 | 描述 |
| ---- | ---- |
| 英语问题数据集[29] | 包含6000个问题,分为6个粗分类标签(缩写、描述、实体、人类、数值、位置)和二级细分类别 |
| [30] | 在[29]的基础上增加了“列表”和“是 - 否 - 解释”两类,并添加250个新问题 |
| 葡萄牙语版本数据集[31] | 是[29]的葡萄牙语版本,广泛用于问题分类任务 |
| DISEQuA语料库[32] | 多语言问答语料库,采用7类标签分类法(日期、位置、度量、对象、组织、人、其他) |
| [33] | 提出180类的大型分类法,是问答系统中最大的问题分类法之一 |
| [34] | 提出开放式问题分类模式,使用SVM算法训练和测试模型,SVM准确率在50% - 92.9%之间 |
| [1] | 评估CNN、CNN Bert、LSTM和SVM四种方法,结论是CNN Bert在各语言和不同训练数据
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



