中文分词算法大全

本文介绍了多种中文分词工具和技术,包括sphinx、lucene等搜索引擎使用的分词器,以及独立的分词库如jieba、smallseg等。探讨了不同分词方法的特点和应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

做中文搜索,关键词提取,文档分类都离不开中文分词,能用的代码包有如下

  • 单字切分 sphinx只要把min_word_len设置为1,并配置charset_table,默认就是单字切分,lucene用StandardAnalyzer
  • CJKAnalyzer lucene自带,两两分词,就是把 ABCD 分成 AB,BC,CD 3段
  • PaodingAnalyzer 开源,可以用于lucene http://code.google.com/p/paoding/
  • sphinx-for-chinese 基于词频字典,sphinx中文分词专属插件,http://www.sphinx-search.com
  • MMseg 基于词典+最大匹配+歧义消除,sphinx和lucence都能用,(sphinx可以直接使用coreseek.com的版本)MMseg还有 python,ruby,php,java等各种语言的开发包
  • smallseg 很轻量级的python库,只能单独使用不能集成到(lucene或者sphinx)当中
  • jieba 另一个python分词库 https://github.com/fxsjy/jieba
  • ICTCLAS 中科院的分词算法,sphinx和lucene都能用,但是使用比较麻烦,还分商业版和免费版
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值