25、自然语言处理中的监督分类技术详解

自然语言处理中的监督分类技术详解

1. 词性标注分类器基础

词性标注分类器是自然语言处理中的重要工具,它可以为文本中的每个单词分配相应的词性标签。下面是一个简单的分类器伪代码示例:

print classifier.pseudocode(depth=4)
if endswith(,) == True: return ','
if endswith(,) == False:
  if endswith(the) == True: return 'AT'
  if endswith(the) == False:
    if endswith(s) == True:
      if endswith(is) == True: return 'BEZ'
      if endswith(is) == False: return 'VBZ'
    if endswith(s) == False:
      if endswith(.) == True: return '.'
      if endswith(.) == False: return 'NN'

这个分类器首先检查单词是否以逗号结尾,如果是,则分配特殊标签“,”;接着检查是否以“the”结尾,若是则很可能是限定词;再检查是否以“s”结尾,若以“s”结尾且不是“is”,则大概率是动词标签“VBZ”,若是“is”则标签为“BEZ”;若不以“s”结尾,再看是否以句号结尾,是则标签为“.”,否则为名词“NN”。

2. 利用上下文信息改进词性标注

仅考虑目标单词的特征提取器无法利用单词出现的上下文信息,而

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值