自然语言处理中的监督分类技术详解
1. 词性标注分类器基础
词性标注分类器是自然语言处理中的重要工具,它可以为文本中的每个单词分配相应的词性标签。下面是一个简单的分类器伪代码示例:
print classifier.pseudocode(depth=4)
if endswith(,) == True: return ','
if endswith(,) == False:
if endswith(the) == True: return 'AT'
if endswith(the) == False:
if endswith(s) == True:
if endswith(is) == True: return 'BEZ'
if endswith(is) == False: return 'VBZ'
if endswith(s) == False:
if endswith(.) == True: return '.'
if endswith(.) == False: return 'NN'
这个分类器首先检查单词是否以逗号结尾,如果是,则分配特殊标签“,”;接着检查是否以“the”结尾,若是则很可能是限定词;再检查是否以“s”结尾,若以“s”结尾且不是“is”,则大概率是动词标签“VBZ”,若是“is”则标签为“BEZ”;若不以“s”结尾,再看是否以句号结尾,是则标签为“.”,否则为名词“NN”。
2. 利用上下文信息改进词性标注
仅考虑目标单词的特征提取器无法利用单词出现的上下文信息,而
超级会员免费看
订阅专栏 解锁全文
8128

被折叠的 条评论
为什么被折叠?



