词性标注:原理、方法与应用
自然语言处理(NLP)的最终目标是解析和理解语言,但目前我们距离这一目标仍有很大差距。因此,许多NLP研究聚焦于中间任务,词性标注就是其中之一。词性标注是为句子中的每个单词标注其合适的词性,例如名词、动词、形容词等。
1. 词性标注基础
词性标注的一个重要特点是它属于有限的句法消歧任务。很多单词具有多种句法类别,标注时需要确定在特定句子中该单词最可能的句法类别。例如,对于句子 “The-AT representative-NN put-VBD chairs-NNS on-IN the-AT table-NN.”,也可能有另一种标注 “The-AT representative-JJ put-NN chairs-VBZ on-IN the-AT table-NN.”,但这种标注在语义上不连贯,且在句法上也不太可能,因为 “put” 作为名词和 “chairs” 作为不及物动词的用法较为罕见。
常见的词性标注标签如下表所示:
| Tag | Part Of Speech |
| — | — |
| AT | article |
| BEZ | the word is |
| IN | preposition |
| JJ | adjective |
| JJR | comparative adjective |
| MD | modal |
| NN | singular or mass noun |
| NNP | singular proper noun |
| NNS | plural noun |
| PERIOD | . : ?
超级会员免费看
订阅专栏 解锁全文
806

被折叠的 条评论
为什么被折叠?



