自然语言处理工具包spaCy初体验

本文介绍了spaCy这款Python自然语言处理工具包的特点与优势,并通过词性分析、命名实体识别等功能进行了实操演示,展示了如何利用词向量进行有趣的近似度计算。

spaCy是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。

初体验

本人对SpaCy做了一下初体验,具体尝试了以下功能:

  1. 词性分析
  2. 命名实体识别
  3. 语法 — 依赖关系刻画
  4. 语义 — 词向量的近似度计算
  5. 词向量降维和可视化

特别在第四部分中,我们解决了一个直观而很有趣的问题:
? - woman = king - queen
? - England = Paris - London

对于我们人来说,答案轻而易举,第一个问号是 ‘man’,第二个是“France”,那么我们看看怎么用SpaCy包让电脑得出这个结果的。

我在Jupiter Notebook上做了演示,详细内容请移步这里

体验:这个包囊括了在NLP中你能想到的绝大部分功能,而且速度超快,不愧是工业级工具包。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值