19、词性标注全解析

最新推荐文章于 2025-11-16 09:43:37 发布

t8u9v0

最新推荐文章于 2025-11-16 09:43:37 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏：用Python玩转自然语言处理文章标签：词性标注默认标注器一元标注器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/t8u9v0/article/details/155057664

用Python玩转自然语言处理专栏收录该内容

42 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

词性标注全解析

1. 词性标注简介

词性标注是将以单词列表形式呈现的句子转换为元组列表的过程，每个元组的形式为 (单词, 标签)。这里的标签就是词性标签，用于表明该单词是名词、形容词、动词等。

词性标注在组块分析之前是必要步骤。没有词性标签，组块分析器就无法知道如何从句子中提取短语。而有了词性标签，就能告知组块分析器如何根据标签模式识别短语。此外，词性标签还可用于语法分析和词义消歧。例如，“duck” 这个词既可以指一种鸟，也可以是表示向下移动的动词。计算机若没有额外信息（如词性标签），就无法区分其含义。

大多数词性标注器是可训练的，它们使用带标签的句子列表作为训练数据，通过这些训练句子生成内部模型，以此来决定如何为单词标注词性。也有一些标注器使用外部数据源或匹配单词模式来选择标签。NLTK 中的所有标注器都在 nltk.tag 包中，并且继承自 TaggerI 基类。 TaggerI 要求所有子类实现 tag() 方法，该方法以单词列表为输入，返回带标签的单词列表作为输出，同时还提供了 evaluate() 方法用于评估标注器的准确性。许多标注器还可以组合成回退链，当一个标注器无法为单词标注时，就会使用下一个标注器，以此类推。

2. 默认标注

默认标注为词性标注提供了一个基线，它简单地为每个标记分配相同的词性标签，使用 DefaultTagger 类来实现。这个标注器可作为最后的手段，也为衡量准确性的提升提供了基准。

2.1 准备工作

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。