中文分词工具

本文介绍了四个中文分词工具:ictcas提供Java、LinuxC、WindowsC版本;imdict-chinese-analyzer是ictclas的Java重实现,适配lucene;LingPipe是用于人类语言分析的Java库,支持学习和下载模型;rmmseg-cpp是高性能的Ruby中文分词工具,适用于Ferret和普通Ruby程序。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近从头开始对复旦大学以及搜狗的数据进行分词。

关于分词工具,下载地址总结如下

1 ictcas  包括Java,LinuxC, WindowsC 的版本均在  http://www.ictclas.org/index.html 有下载。

2 imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,作者高小平,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供中文分词支持。 也可以在 http://www.ictclas.org/index.html 下载。

3 LingPipe is a suite of Java libraries for the linguistic analysis of human language. http://alias-i.com/lingpipe/index.html。 这个工具中的分词部分中,可以通过学习形成模型,或者从网站上下载模型。

4

rmmseg-cpp is a high performance Chinese word segmentation utility for
Ruby. It features full Ferret integration
as well as support for normal Ruby program usage.

rmmseg-cpp is a re-written of the original
RMMSeg gem in C++. RMMSeg is written
in pure Ruby. Though I tried hard to tweak RMMSeg, it just consumes
lots of memory and the segmenting process is rather slow.下载地址http://rmmseg.rubyforge.org/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值