中文命名实体识别之学习笔记一(词性标注)

本文介绍了中文命名实体识别的基础知识,包括其在自然语言处理中的重要性和应用领域,并详细解释了词性标注中的词类标记集,为深入理解命名实体识别技术打下坚实的基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

   接触命名实体识别这个领域有不少时间了,中文命名实体识别的主要任务是识别出文本中的人名,地名,组织机构名等专有名称和有意义的时间,日期等数量短语并加以归类。命名实体识别技术是信息抽取,信息检索,机器翻译,问答系统等多种自然语言处理技术必不可少的组成部分。对于这个技术,自己也看了不少相关的论文,但是,具体的细节总是不能甚为的深入,今天决定,从最基础的开始。因为命名实体识别,一般是在词性标注,即分词之后进行,所以对于深入命名实体识别技术必须先把词性标注搞的很明白。下面介绍一下,词类标记集:

 词类标记集

  本规范的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,只增加了部分细类。

本规范的词类标记集规定,每个分词单位的标记由英文字母串构成。标记的第一位代码,表示信息处理用现代汉语词类的基本词类,共20类,标记的第二、三位代码,表示信息处理用现代汉语基本词类下的细类。

词类分别为:

(1)  名词n

普通名词(n)   

时间名词(nt)

方位名词(nd)

处所名词(nl)          

人名(nh) 

汉族或类汉族人名(人名 nhh:姓nhf, nhg

   音译名或类音译名(nhy)

日本人名(nhr

其他(nhw:如绰号,笔名,尊称等 。

地名(ns) 

族名(nn) 

团体机构名(ni) 

其他专有名词(nz)

(2)  动词v

普通动词(v)  

能愿动词(vu)  

趋向动词(vd)

系动词(vl)

(3) 形容词:

性质形容词(aq)

状态形容词(as)

4)区别词

5)数词

6)量词

7)副词d  

8)代词r

9)介词p

10)连词c

11)助词u

12)叹词e

13)拟声词o

14)习用语i

名词性习用语(in) 

动词性习用语(iv)  

形容词性习用语 (ia)

连词性习用语(ic)

15)简称和略语j

名词性简称和略语 jn  

动词性简称和略语 jv 

形容词性简称和略语 ja  

16)前接成分h         

17)后接成分k

18)语素字g  

19)非语素字x  

20)其它w

标点符号 (wp)  

非汉字字符串(ws)  

其他未知的符号(wu)

这些词类集合,我觉得应该时刻记在心里。

 参考文献:973当代汉语文本语料库分词、词性标注加工规范。山西大学

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值