词性标注:原理、方法与应用
自然语言处理(NLP)的终极目标是解析和理解语言,但目前我们距离实现这一目标仍有很大差距。因此,许多NLP研究聚焦于中间任务,词性标注(Part-of-Speech Tagging)就是其中之一。词性标注是为句子中的每个单词标注其合适的词性,例如名词、动词、形容词等。
1. 词性标注基础
词性标注是一种有限的句法消歧任务。很多单词具有多种句法类别,在标注时,我们需要确定一个单词在特定句子中的最可能的句法类别。例如,句子 “The-AT representative-NN put-VBD chairs-NNS on-IN the-AT table-NN.” 展示了一种词性标注结果,但同一句子也可能有其他标注方式,如 “The-AT representative-JJ put-NN chairs-VBZ on-IN the-AT table-NN.”,不过这种标注在语义上是不连贯的。
词性标注的范围是有限的,它不涉及构建完整的句法分析,只是确定句子中单词的句法类别。虽然词性标注的准确率较高,最成功的方法能正确消歧96% - 97%的词元,但由于是按单词计算准确率,在实际应用中,长句子仍可能存在较多标注错误。例如,在报纸等体裁中,平均句子长度超过20个单词,即使标注准确率为96%,平均每个句子也会有一个以上的标注错误。
词性标注的信息来源主要有两种:
- 句法结构信息 :观察目标单词上下文其他单词的词性。某些词性序列很常见,如 “AT JJ NN”,而有些则极不可能或不可能出现,如 “AT JJ VBP”。但仅依靠这种信息进行标注并不十分成功,早期的确定性规则标签器(如Greene和Rubi
超级会员免费看
订阅专栏 解锁全文
782

被折叠的 条评论
为什么被折叠?



