词性标注:原理、模型与应用
1. 引言
词性标注是计算机程序读取任意文本,将其分割为标记(token),并为每个标记附加表征该词词汇和上下文属性信息的过程。这些信息可明确指定,也可用唯一可解释的标签以更紧凑的方式编码,这种描述称为词性标签(POS tag),所有可能标签的集合称为词性标注过程的标签集。
例如,句子 “We can can a can.” 的标注如下表所示:
| Token | Explicit specification | Encoded specification |
| — | — | — |
| We | personal pronoun, first person, unspecified gender, plural and nominative case | Pp1 - pn |
| can | modal verb, indicative present | Voip |
| can | main verb, infinitive | Vmn |
| a | indefinite article, unspecified gender, singular | Ti - s |
| can | common noun, neuter gender, singular | Ncns |
|. | period, sentence final | PERIOD |
这里的 “标记” 指单词识别程序作为单个处理单元返回的文本字符串。通常,每个非空白字符串构成一个标记,但像 “New York” 或 “back and forth” 等序列可能更适合作为单个标记处理;而像意大利语
超级会员免费看
订阅专栏 解锁全文
784

被折叠的 条评论
为什么被折叠?



