AI Conference 北京站
AI Conference 2019 北京站6月18-21日即将开幕!
培训:大会推出「PyTorch 深度学习」两天培训课程,资深数据科学家主讲,限制人数,抢票从速!
编者注:北京举行的人工智能大会上的相关议题。
开源NLP库
在开发和生产中,最受欢迎的NLP库列表如下:
Spark NLP
spaCy
NLTK
OpenNLP
Stanford CoreNLP
显然,NLP领域还有更多的库。但是,这些库更通用,涵盖更多功能,而不只是专注于特定用例。例如,gensim是一个NLP库,一开始是为构建文本主题模型而创建的,不能用于完整的NLP管道。
在本文的分析中,我们只考虑提供如下核心功能集合的库:
句子检测
单字/单词的细粒度单位化
词干提取
语法标记
词性(POS)
命名实体识别(NER)
依赖分析器
训练特定域的语言模型
以及,提供以下的部分或全部功能:
文本匹配
日期匹配
文本分块
拼写检查
情绪检测
很多其他功能!
这里比较的所有五个库都有一些可以定义的NLP数据管线的概念 – 因为大多数NLP任务需要组合这些功能中的某些,来获得有用的结果。这些管线,可以是“传统”的管线,也可以是基于深度学习的管线。

图片来源:Parsa Ghaffari
这是最受欢迎的NLP库的功能比较:
| 名称 | SparkNLP | NLTK | SpaCy | CoreNLP |
| 句子检测 | 是 | 是 | 是 | 是 |
| 细粒度单位化 |

本文对比了开源NLP库如Spark NLP, spaCy, NLTK, OpenNLP和Stanford CoreNLP在财务信息提取、预训练模型等方面的功能。讨论了各库的许可证、支持、预训练模型,并强调了选择库时要考虑的准确性、速度和可扩展性。"
112829505,10548534,使用TraCI接口控制SUMO交通灯,"['交通模拟', 'SUMO接口', '智能交通', '交通控制算法']
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



