【python】NLP汉语常用工具包总汇

最新推荐文章于 2025-07-07 11:27:37 发布

原创最新推荐文章于 2025-07-07 11:27:37 发布 · 452 阅读

0 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

104 篇文章

订阅专栏

本文综述了汉语分词领域的主流工具，包括HanLP、jiagu、jieba、NLPIR、NLTK、pyltp、SpaCy、StanfordCoreNLP和THULAC。这些工具不仅提供中文分词功能，还涵盖了词性标注、命名实体识别、情感分析、文本摘要等多种自然语言处理任务。文章提供了详细的工具对比和相关链接。

1，汉语常用分词综述

包名	组织	编写语言	主要功能
HanLP		Java	中文分词、命名实体识别、关键词提取、自动摘要、短语提取、拼音转换、简繁转换、文本推荐等
jiagu		tensorflow Bi-LSTM	中文分词、词性标注、命名实体识别、情感分析、知识图谱关系抽取、关键词抽取、文本摘要、新词发现等
jieba		多种语言实现	中文分词、词性标记、关键字提取、自定义词典、并行分词、Tokenize、搜索引擎等
NLPIR	中科院	Java	中文分词、英文分词、词性标注、命名实体识别、新词识别、关键词提取、支持用户专业词典与微博分析
NLTK	宾夕法尼亚大学	python	Tokenize，词型归一化，词性标注，停用词，情感分析，文本相似度，文本分类，句法分析
pyltp	哈工大	C++	分词，分句，自定义词典，词性标注，命名实体识别，依存句法分析，语义角色标注
SpaCy		Cython	词向量，词性标注，依存分析，命名实体识别，可视化，知识提取
StanfordCoreNLP	斯坦福大学	Java	分词、词性标注、命名实体识别、句法成分分析、依存句法分析、
THULAC	清华大学	C++/Java/Python	分词、词性标注