AI Conference 北京站
AI Conference 2019 北京站6月18-21日即将开幕!
培训:大会推出「PyTorch 深度学习」两天培训课程,资深数据科学家主讲,限制人数,抢票从速!
编者注:北京举行的人工智能大会上的相关议题。
开源NLP库
在开发和生产中,最受欢迎的NLP库列表如下:
Spark NLP
spaCy
NLTK
OpenNLP
Stanford CoreNLP
显然,NLP领域还有更多的库。但是,这些库更通用,涵盖更多功能,而不只是专注于特定用例。例如,gensim是一个NLP库,一开始是为构建文本主题模型而创建的,不能用于完整的NLP管道。
在本文的分析中,我们只考虑提供如下核心功能集合的库:
句子检测
单字/单词的细粒度单位化
词干提取
语法标记
词性(POS)
命名实体识别(NER)
依赖分析器
训练特定域的语言模型
以及,提供以下的部分或全部功能:
文本匹配
日期匹配
文本分块
拼写检查
情绪检测
很多其他功能!
这里比较的所有五个库都有一些可以定义的NLP数据管线的概念 – 因为大多数NLP任务需要组合这些功能中的某些,来获得有用的结果。这些管线,可以是“传统”的管线,也可以是基于深度学习的管线。
图片来源:Parsa Ghaffari
这是最受欢迎的NLP库的功能比较:
名称 | SparkNLP | NLTK | SpaCy | CoreNLP |
句子检测 | 是 | 是 | 是 | 是 |
细粒度单位化 |