如何选择中文分词

目前全文搜索用到的中文分词,大都是开源和自己开发

相应的算法很多,到底选哪个来写,各有各的看法。

我分享下我做过的供大家参考

没用过词性的中文分词,因为我的业务用不到。

用过的大部分开源的中文分词,主要是基于字典对纯数字,纯英文,纯中文,混合进行比对,效率看字典好坏,其字典设计,内存使用,比对次数,扫描文章次数等。
适合没有明确搜索关键词的全文搜索,其目标是搜索到。
缺点:由于字典和算法,实现后的中文分词形成的索引大小差异比较大,很难衡量其准确性

写过一个分词,基本就是基于产品型号字典的比对。
特点:索引速度快,索引小。因为字典和业务挂钩很容易检查其准确性。
缺点:只能基于业务。

中文分词可以很简单,网上找个开源的来用,也可以可以很复杂,自己写,比如不同类型的字典所需信息整理搜集。大量字典情况下,内存的使用,如何更快,准确切分是比较复杂的。

选择中文分词到底是找个开源的用,还是找个算法来写,或者是自己按照业务来写,主要基于
1:项目进度:时间
2:自己写的把握:项目第一是稳,而不是快
3:业务需要
4:公司愿意的投入:人力,物力,财力
5:大家补充 :D
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值