中文分词工具整理

本文介绍了中文分词在自然语言处理中的重要性,并列举了包括MMSEG、CRF、ICTCLAS和Lucene在内的分词工具,部分可能已过时,适用于学术研究或商业用途。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

由于英文中词与词之间有空格隔开,使得英文分词的工作主要集中在词干提取(形态还原)、大小写转换等。而中文的书写习惯、一词多义等因素,决定了中文分词并不像英文分词那样简单,也使得中文分词成为中文自然语言处理的重要课题之一。
下文的中文分词工具列表是约为14年左右对当时常用中文分词器的一些调研,其中有些目前已经不能使用,仅供读者参考。

MMSEG:

* MMSEG (A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm,developed by Chih-Hao-Tsai) http://technology.chtsai.org/mmseg/
* http://search.cpan.org/~dryman/Lingua-ZH-MMSEG-0.4005/lib/Lingua/ZH/MMSEG.pm
* Jcseg (基于java语言开发的一款轻量级中文分词器,使用流行的MMSeg算法实现,并且提供了最新版本的lucene, solr, elasticsearch(New)的分词接口) http://git.oschina.net/lionsoul/jcseg
* MMSEG4J (使用MMSeg算法实现的中文分词器,并实现lucene的analyzer和solr的TokenizerFactory以便在Lucene和Solr中使用) https://code.google.com/p/mmseg4j/
* LibMMSeg (Coreseek.com为Sphinx 全文搜索引擎设计的中文分词软件包,采用MMSEG算法) http://www.coreseek.cn/opensource/mmseg/
* Lingua::ZH::MMSEG (Lingua::ZH::MMSEG implements MMSEG original developed by Chih-Hao-Tsai. The whole module is rewritten in pure Perl, and the phrase library is 新酷音 forked from OpenFoundry.作者:陳仁乾) 

CRF:

* Stanford Word Segmenter ( a Java implementation of the CRF-based Chinese Word Segmenter) http://nlp.stanford.edu/software/segmenter.shtml
* bamboo ( CRF模型 ) https://code.google.com/p/nlpbamboo/

ICTCLAS:

* ICTCLAS (中科院基于隐马模型研制的汉语词法分析系统,号称当前世界上最好的汉语词法分析器,有商业版和共享版) http://www.ictclas.org/
* NLPIR (可视为ICTCLAS的新版本) http://ictclas.nlpir.org/
* SharpICTCLAS http://ictclas.org/Down_OpenSrc.asp
* phpcws (使用了“ICTCLAS 3.0 共享版中文分词算法”的API ,现已停止更新) https://code.google.com/p/phpcws/
* httpcws (使用了“ICTCLAS 3.0 2009共享版中文分词算法”的API,用来取代phpcws的新分词系统) https://code.google.com/p/httpcws/

Lucene:

* IKAnalyzer (林良益基于java语言开发的一款轻量级中文分词工具包,从3.0版本开始发展为面向Java的公用分词组件) http://www.oschina.net/p/ikanalyzer
* paoding (震秦开发的一款完全基于lucene的中文分词系统) http://git.oschina.net/zhzhenqin/paoding-analysis
* PanGuSegment (又名盘古分词,eaglet开发的一款中英文分词组件,可结合lucene.net进行使用) http://pangusegment.codeplex.com/

其他:

* FudanNLP (复旦大学开发的一款中文自然语言处理工具包 )http://jkx.fudan.edu.cn/nlp/ https://code.google.com/p/fudannlp/
* SCWS (higntman开发的一款基于词频词典的机械式中文分词引擎) http://www.xunsearch.com/scws/
* jieba (基于Python的中文分词组件,有Java/C++/Node.js/Erlang的衍生版本)
* smallseg https://smallseg.appspot.com/smallseg
* snailseg https://snailsegdemo.appspot.com
* grid (三段式机械分词以及基于信息熵的新词发现算法实现) https://github.com/GeorgeBourne/grid
* CC-CEDICT (一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典)http://www.mdbg.net/chindict/chindict.php?page=cedict 

商业用途:

* ICTCLAS
* 海量云分词 http://home.hylanda.com/show_5_19.html
* sae新浪云计算平台分词服务 http://sae.sina.com.cn/?m=front
* 玻森中文语义API http://bosonnlp.com/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值