在
[全文检索]离开lucene姑娘的日子 里面也有提到. lucene本身自带的StandardAnalyzer对于中文的分词相当弱智。
前段时间试了试 庖丁分词:
输出:
分词的时候还可以,但是真正替换StandardAnalyzer就遇到点问题。估计是分词器有回写机制,服务器上开5个线程闹的内存不够用...
没有细致理解运行机制,也不好说庖丁同学的不是。还有可能试配置的问题吧。先放着,再议。
发布时间:2008-11-14 02:00:03 | 阅读:249 | 评论:0
前段时间试了试 庖丁分词:
Paoding Analysis摘要
Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。
采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析
实际上试试:
输出:
分词的时候还可以,但是真正替换StandardAnalyzer就遇到点问题。估计是分词器有回写机制,服务器上开5个线程闹的内存不够用...
没有细致理解运行机制,也不好说庖丁同学的不是。还有可能试配置的问题吧。先放着,再议。
发布时间:2008-11-14 02:00:03 | 阅读:249 | 评论:0
本文介绍了庖丁分词(Paoding's Knives)的高效性和扩展性,并通过对比Lucene自带的StandardAnalyzer,探讨了庖丁分词在实际应用中遇到的问题及其原因。
1296

被折叠的 条评论
为什么被折叠?



