在
[全文检索]离开lucene姑娘的日子 里面也有提到. lucene本身自带的StandardAnalyzer对于中文的分词相当弱智。
前段时间试了试 庖丁分词:
输出:
分词的时候还可以,但是真正替换StandardAnalyzer就遇到点问题。估计是分词器有回写机制,服务器上开5个线程闹的内存不够用...
没有细致理解运行机制,也不好说庖丁同学的不是。还有可能试配置的问题吧。先放着,再议。
发布时间:2008-11-14 02:00:03 | 阅读:249 | 评论:0
前段时间试了试 庖丁分词:
Paoding Analysis摘要
Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。
采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析
实际上试试:

输出:

分词的时候还可以,但是真正替换StandardAnalyzer就遇到点问题。估计是分词器有回写机制,服务器上开5个线程闹的内存不够用...

没有细致理解运行机制,也不好说庖丁同学的不是。还有可能试配置的问题吧。先放着,再议。
发布时间:2008-11-14 02:00:03 | 阅读:249 | 评论:0