NLTK与StanfordNLP工具包结合使用

(一) 概述

1.NLTK

NLTK是一款著名的python自然语言处理工具包,其内收集了NLP领域大量的公开数据集以及常用模型,涵盖了分词,词性标注,命名实体识别,句法分析,依存分析等各种NLP领域的子任务。

2.Stanford NLP

Stanford NLP 是由斯坦福大学的NLP小组开源的用Java实现的NLP工具包,同样对 NLP 领域的各个问题提供了解决办法。相比NLTK,Stanford NLP提供了更多高质量的解决办法,因此我们希望能够在NLTK中使用它们。在 2004年Steve Bird在NLTK中加上了对Stanford NLP 工具包的支持,通过调用外部的jar文件来使用Stanford NLP工具包的功能。现在的NLTK中,通过封装提供了 Stanford NLP 中的以下几个功能:

  • 分词
  • 词性标注
  • 命名实体识别
  • 句法分析
  • 依存分析

(二) Standford NLP工具包配置

配置Standford NLP工具包需要提前安装好Java环境,Java环境的安装这里就不介绍了,可以自行百度,本文使用的是JDK1.8版本。本文配置的Standford NLP工具包都是3.9.2版本。

1.下载.jar包

  1. 分词压缩包:The Stanford Natural Language Processing Group
    点进链接后找到Download下的下载链接,获取stanford-segmenter-2018-10-16.zip,如下图:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值