[全文检索] 庖丁叔叔的逆袭

[全文检索]离开lucene姑娘的日子 里面也有提到. lucene本身自带的StandardAnalyzer对于中文的分词相当弱智。

前段时间试了试 庖丁分词:

Paoding Analysis摘要

Paoding's Knives 中文分词具有极 高效率高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。

高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。

采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。

能够对未知的词汇进行合理解析



实际上试试:




输出:





分词的时候还可以,但是真正替换StandardAnalyzer就遇到点问题。估计是分词器有回写机制,服务器上开5个线程闹的内存不够用...



没有细致理解运行机制,也不好说庖丁同学的不是。还有可能试配置的问题吧。先放着,再议。


 发布时间:2008-11-14 02:00:03 | 阅读:249 | 评论:0 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值