自然语言处理中的词性标注、语法特征与词汇资源
1. 标准化词性标注集与语法特征
在自然语言处理中,词性标注和语法特征的标准化是一个重要的研究领域。虽然基本的词性,如限定词、名词、代词、形容词、动词、助动词、副词、连词和介词等,有相对明确的定义,但如何为计算分析对它们进行标准化仍然存在争议。
争议主要集中在两个方面:
- 细节程度 :不同的标注集包含的标签数量差异很大,有的只有十几个标签,有的则超过一百个。
- 子类别划分 :例如动词应该划分多少个类别,是只设一个类别,还是进一步细分为助动词、情态动词、动名词、不及物动词、及物动词等。
当考虑多种语言时,问题变得更加复杂。在法语和德语中,主要的词性可以根据性别、格和数进行子类划分,但在英语中这些划分并无用处。尽管通常可以将一种语言的标注集映射到另一种语言,但即使在同一种语言中,也没有无可争议的通用方案。
幸运的是,随着多语言语料库的收集和标注,实用标准逐渐出现。下面介绍两种标注方案:
- 通用词性标注集(UPOS) :用于词性标注。
- MULTEXT的扩展 :用于语法特征标注。
1.1 多语言词性标签
构建多语言标注集需要有一组通用的类别,以便在不同语言之间进行比较。这些类别对应于传统的词性,在欧洲语言中达成了相对广泛的共识,但对于特定语言来说不够精确。
Dermatas和Kokkinakis(1995)使用统计方法为七种欧洲语言的文本进行词性标注,保留了传统的词性,并为
超级会员免费看
订阅专栏 解锁全文

1333

被折叠的 条评论
为什么被折叠?



