随着汉语言的广泛应用,中文信息处理成了一个重要的研究课题,常见于搜索引擎:信息检索、中外文自动翻译、数据挖掘技术、自然语言处理等领域。在处理的过程中,中文分词是最基础的一环。
nodejieba 简介
nodeJieba
是结巴中文分词的 Node.js 版本实现, 由 CppJieba
提供底层分词算法实现,是兼具高性能和易用性两者的 Node.js 中文分词插件。
nodejieba模块支持以下3种分词模式:
(1) 精确模式,试图将句子最精准地切开。
(2) 全模式,将句子中所有可以成词的词语都扫描出来,速度非常快。
(3) 搜索引擎模式,在精确模式的基础上对长词再次切分。
特点
- 词典载入方式灵活,无需配置词典路径也可使用,需要定制自己的词典路径时也可灵活定制。
- 底层算法实现是C++,性能高效。
- 支持多种分词算法。
- 支持动态补充词库。
常用API
noedejieba模块中提供了一系列函数,常用的有cut()函数、cutAll()函数、cutForSearch()函数、tag()函数、extract()函数。
1.cut()函数
用来做精确模式下的内容分词,仅有1个参数sentence,表示需要分词性的内容字符串格式。
2.cutAll()函数
用来做全模式下的内容分词,仅有1个参数sentence,表示需要分词性的内容字符串