26、词性标注：原理、模型与应用

最新推荐文章于 2025-10-26 11:51:24 发布

青柠汽水308

最新推荐文章于 2025-10-26 11:51:24 发布

阅读量28

点赞数

CC 4.0 BY-SA版权

分类专栏：计算语言学的全景指南文章标签：词性标注 N-gram模型隐马尔可夫模型

本文链接：https://blog.youkuaiyun.com/solidity8miner/article/details/151145006

计算语言学的全景指南专栏收录该内容

54 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

词性标注：原理、模型与应用

1. 引言

词性标注是计算机程序读取任意文本，将其分割为标记（token），并为每个标记附加表征该词词汇和上下文属性信息的过程。这些信息可明确指定，也可用唯一可解释的标签以更紧凑的方式编码，这种描述称为词性标签（POS tag），所有可能标签的集合称为词性标注过程的标签集。

例如，句子 “We can can a can.” 的标注如下表所示：
| Token | Explicit specification | Encoded specification |
| — | — | — |
| We | personal pronoun, first person, unspecified gender, plural and nominative case | Pp1 - pn |
| can | modal verb, indicative present | Voip |
| can | main verb, infinitive | Vmn |
| a | indefinite article, unspecified gender, singular | Ti - s |
| can | common noun, neuter gender, singular | Ncns |
|. | period, sentence final | PERIOD |

这里的 “标记” 指单词识别程序作为单个处理单元返回的文本字符串。通常，每个非空白字符串构成一个标记，但像 “New York” 或 “back and forth” 等序列可能更适合作为单个标记处理；而像意大利语