自然语言处理:从spaCy到Gensim的文本处理之旅
1. spaCy文本处理基础
在自然语言处理(NLP)中,spaCy是一个强大的工具,它提供了便捷的文本标注方式。我们可以向分词器添加自定义的特殊情况,甚至自定义spaCy的分词器类。以下是添加自定义分词器的简单示例:
nlp = spacy.load('en')
当我们将句子传入nlp管道时,第一步是分词。完成分词后,我们得到的是由标记(tokens)组成的Doc对象,标记是句子的基本组成部分。随后,管道中的其他组件会对每个标记进行处理。
1.1 词性标注(POS - tagging)
默认管道的第二个组件是张量器(tensorizer),它将Doc对象的内部表示编码为浮点数组。这是必要的步骤,因为spaCy的模型是神经网络模型,只处理张量。之后,我们开始进行第一个标注——词性标注。
词性标注是为句子中的每个标记标记其合适的词性,如名词、动词等。spaCy使用统计模型进行词性标注。要获取标记的词性标注,只需查看标记的 pos_ 属性。示例代码如下:
doc = nlp(u'John and I went to the park.')
for token in doc:
print((token.text, token.pos_))
输出结果如下:
超级会员免费看
订阅专栏 解锁全文
680

被折叠的 条评论
为什么被折叠?



