(一) 概述
1.NLTK
NLTK是一款著名的python自然语言处理工具包,其内收集了NLP领域大量的公开数据集以及常用模型,涵盖了分词,词性标注,命名实体识别,句法分析,依存分析等各种NLP领域的子任务。
2.Stanford NLP
Stanford NLP 是由斯坦福大学的NLP小组开源的用Java实现的NLP工具包,同样对 NLP 领域的各个问题提供了解决办法。相比NLTK,Stanford NLP提供了更多高质量的解决办法,因此我们希望能够在NLTK中使用它们。在 2004年Steve Bird在NLTK中加上了对Stanford NLP 工具包的支持,通过调用外部的jar文件来使用Stanford NLP工具包的功能。现在的NLTK中,通过封装提供了 Stanford NLP 中的以下几个功能:
- 分词
- 词性标注
- 命名实体识别
- 句法分析
- 依存分析
(二) Standford NLP工具包配置
配置Standford NLP工具包需要提前安装好Java环境,Java环境的安装这里就不介绍了,可以自行百度,本文使用的是JDK1.8版本。本文配置的Standford NLP工具包都是3.9.2版本。
1.下载.jar包
- 分词压缩包:The Stanford Natural Language Processing Group
点进链接后找到Download下的下载链接,获取stanford-segmenter-2018-10-16.zip,如下图:

最低0.47元/天 解锁文章
878

被折叠的 条评论
为什么被折叠?



