自然语言处理之词性标注(POS)

一、概念:

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词主要可以分为以下2类:

  • 实词:名词、动词、形容词、状态词、区别词、数词、量词、代词
  • 虚词:副词、介词、连词、助词、拟声词、叹词。

二、常用的词性标注集如下:

  1. 《PFR人民日报标注语料库》词性编码表——40多个标记
  2. 《现代汉语语料库加工规范——词语切分与词性标注》词性标记——40多个标记
  3. 计算所ICTCLAS3.0汉语词性标记集——共计99个标记,包括22个一类、66个2类、11个三类
  4. HanLP词性标记集——兼容上述2和3
  5. BosonNLP词性标注——共22个大类,70个标签
  6. 结巴分词中出现的类型
  7. StanfordNLP的词性标注(中文)
  8. StanfordNLP的词性标注(英文)

 

详见:https://www.biaodianfu.com/pos-tagging-set.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值