1,汉语常用分词综述
| 包名 | 组织 | 编写语言 | 主要功能 |
| HanLP | Java | 中文分词、命名实体识别、关键词提取、自动摘要、短语提取、拼音转换、简繁转换、文本推荐等 | |
| jiagu | tensorflow Bi-LSTM | 中文分词、词性标注、命名实体识别、情感分析、知识图谱关系抽取、关键词抽取、文本摘要、新词发现等 | |
| jieba | 多种语言实现 | 中文分词、词性标记、关键字提取、自定义词典、并行分词、Tokenize、搜索引擎等 | |
| NLPIR | 中科院 | Java | 中文分词、英文分词、词性标注、命名实体识别、新词识别、关键词提取、支持用户专业词典与微博分析 |
| NLTK | 宾夕法尼亚大学 | python | Tokenize,词型归一化,词性标注,停用词,情感分析,文本相似度,文本分类,句法分析 |
| pyltp | 哈工大 | C++ | 分词,分句,自定义词典,词性标注,命名实体识别,依存句法分析,语义角色标注 |
| SpaCy | Cython | 词向量,词性标注,依存分析,命名实体识别,可视化,知识提取 | |
| StanfordCoreNLP | 斯坦福大学 | Java | 分词、词性标注、命名实体识别、句法成分分析、依存句法分析、 |
| THULAC | 清华大学 | C++/Java/Python | 分词、词性标注 |
2,相关链接
2.1 HanLP
https://blog.youkuaiyun.com/luolinll1212/article/details/102618937
https://github.com/hankcs/HanLP
2.1 jiagu
https://blog.youkuaiyun.com/luolinll1212/article/details/101680740
https://github.com/ownthink/Jiagu
2.3 jieba
https://blog.youkuaiyun.com/luolinll1212/article/details/100781615
https://blog.youkuaiyun.com/luolinll1212/article/details/101194079
https://github.com/fxsjy/jieba
2.4 NLPIR
https://blog.youkuaiyun.com/luolinll1212/article/details/102624031
https://www.jianshu.com/p/d53312b43c53
https://github.com/NLPIR-team/NLPIR
2.5 nltk
https://zhuanlan.zhihu.com/p/38231514
2.6 pytlp
https://blog.youkuaiyun.com/luolinll1212/article/details/102526400
https://www.jianshu.com/p/f78453f5d1ca
2.7 SpaCy
https://blog.youkuaiyun.com/luolinll1212/article/details/102647516
http://sc.hubwiz.com/codebag/zh-spacy-model/
https://blog.youkuaiyun.com/shebao3333/article/details/97407644
2.8 StanfordCoreNLP
https://blog.youkuaiyun.com/luolinll1212/article/details/101158491
https://cloud.tencent.com/developer/article/1437813
本文综述了汉语分词领域的主流工具,包括HanLP、jiagu、jieba、NLPIR、NLTK、pyltp、SpaCy、StanfordCoreNLP和THULAC。这些工具不仅提供中文分词功能,还涵盖了词性标注、命名实体识别、情感分析、文本摘要等多种自然语言处理任务。文章提供了详细的工具对比和相关链接。
8130

被折叠的 条评论
为什么被折叠?



