10、词性标注：原理、方法与应用

最新推荐文章于 2025-11-24 16:27:57 发布

pytorchlight8

最新推荐文章于 2025-11-24 16:27:57 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏：统计自然语言处理入门文章标签：词性标注自然语言处理马尔可夫模型

本文链接：https://blog.youkuaiyun.com/pytorchlight8/article/details/155012854

统计自然语言处理入门专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

词性标注：原理、方法与应用

自然语言处理（NLP）的终极目标是解析和理解语言，但目前我们距离实现这一目标仍有很大差距。因此，许多NLP研究聚焦于中间任务，词性标注（Part-of-Speech Tagging）就是其中之一。词性标注是为句子中的每个单词标注其合适的词性，例如名词、动词、形容词等。

1. 词性标注基础

词性标注是一种有限的句法消歧任务。很多单词具有多种句法类别，在标注时，我们需要确定一个单词在特定句子中的最可能的句法类别。例如，句子 “The-AT representative-NN put-VBD chairs-NNS on-IN the-AT table-NN.” 展示了一种词性标注结果，但同一句子也可能有其他标注方式，如 “The-AT representative-JJ put-NN chairs-VBZ on-IN the-AT table-NN.”，不过这种标注在语义上是不连贯的。

词性标注的范围是有限的，它不涉及构建完整的句法分析，只是确定句子中单词的句法类别。虽然词性标注的准确率较高，最成功的方法能正确消歧96% - 97%的词元，但由于是按单词计算准确率，在实际应用中，长句子仍可能存在较多标注错误。例如，在报纸等体裁中，平均句子长度超过20个单词，即使标注准确率为96%，平均每个句子也会有一个以上的标注错误。

词性标注的信息来源主要有两种：
- 句法结构信息 ：观察目标单词上下文其他单词的词性。某些词性序列很常见，如 “AT JJ NN”，而有些则极不可能或不可能出现，如 “AT JJ VBP”。但仅依靠这种信息进行标注并不十分成功，早期的确定性规则标签器（如Greene和Rubi