词性标注与命名实体识别

最新推荐文章于 2025-06-23 21:02:37 发布

原创

最新推荐文章于 2025-06-23 21:02:37 发布 · 8.7k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#词性标注 #NER #CRF

本文详细介绍了词性标注和命名实体识别的基本概念、常用方法和技术。词性标注是自然语言处理的重要预处理步骤，涉及词类划分和标注规范。jieba库提供了词性标注功能，结合规则和统计方法进行。命名实体识别则旨在识别文本中的专有名词，如人名、地名等，常用方法包括HMM、CRF等。条件随机场(CRF)作为命名实体识别的一种有效模型，能够考虑全局信息，相比HMM具有优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Table of Contents

词性标注

简介

词性是词汇基本的语法属性，也称为词类。词性标注是在给定句子中判定每个词的语法范畴，确定其词性并加以标注的过程。词性标注是很多NLP任务的预处理步骤，如句法分析，经过词性标注后的文本会带来很大的便利性，但也不是不可或缺的步骤。整体上看在中文中，大多数词语，尤其是实词，一般只有一到两个词性，且其中一个词性的使用频率远大于另一个，即使每次都单纯选取最高频词性，也能实现80%准确率。

词性标注最简单的方法是从语料库中统计每个词所对应的高频词性，将其作为默认词性，这样显然还有上升空间。目前较主流的方法是同分词一样，将句子的词性标注作为一个序列标注问题来解决，同样分词中的常用方法，如HMM, CRF都可以在词性标注上使用。

词性标注规范

词性需要有一定的规范，如将词分为名词、形容词、动词，然后用'n' 'adj' 'v'来表示。中文领域尚无统一的标注标准，较为主流的有北大词性标注集合宾州词性标注集。北大词性标注集部分标注词性如下表所示：

Ag     形语素     形容词性语素。形容词代码为a，语素代码ｇ前面置以A。
    a       形容词      取英语形容词adjective的第1个字母。
　ad 副形词直接作状语的形容词。形容词代码a和副词代码d并在一起。
　an 名形词具有名词功能的形容词。形容词代码a和名词代码n并在一起。
    b       区别词      取汉字“别”的声母。
    c       连词        取英语连词conjunction的第1个字母。
    Dg     副语素     副词性语素。副词代码为d，语素代码ｇ前面置以D。
    d       副词     取adverb的第2个字母，因其第1个字母已用于形容词。
    e       叹词     取英语叹词exclamation的第1个字母。
    f        方位词      取汉字“方” 的声母。
　g 语素    绝大多数语素都能作为合成词的“词根”，取汉字“根”的声母。
    h       前接成分   取英语head的第1个字母。
    i        成语        取英语成语idiom的第1个字母。
    j