lucene3与paoding

最新推荐文章于 2021-02-26 13:16:37 发布

原创最新推荐文章于 2021-02-26 13:16:37 发布 · 140 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#lucene #SVN

搜索专栏收录该内容

5 篇文章

订阅专栏

本文探讨了Lucene的应用与Paoding分词器的配置调整，包括如何为特定需求定制词库并选择合适的词典编译器以提高搜索准确性。

[size=medium]最近又开始研究lucene了真他妈的折腾太久没用都基本忘光了。

[b]正文：[/b]

1.paoding的jar包只支持了lucene2的，官方上说如果要用for lucene3的，需要直接从svn check下来，这里需要注意。

2.由于功能上的需要，自己加了一个健康类的词库，这里需要注意两点：

a.加了词库后，需要把class/dic里面的.compiled文件夹删除，因为paoding在第一次执行时会把所有的词库都编译一次，似乎这么做是为了提高解析的执行效率。
b.词库编译最好使用SortingDictionariesCompiler这个类编译，需要修改paoding-analyzer.properties，把其中paoding.analyzer.dictionaries.compiler这个值去掉注释。

之所以这么做是因为如果使用默认的MostWordsModeDictionariesCompiler这个类编译的话，有些长词都被切分为小词，对于搜索，可能导致结果不准确。

如：“朝阳区慈济医院”这个词如果用MostWordsModeDictionariesCompiler编译词库，切分出来的结果可能是“朝阳”“朝阳区”“慈济”“医院”但是“朝阳区慈济医院”就被吃了，但是如果用SortingDictionariesCompiler编译词库，切分出来的结果可能是“朝阳”“朝阳区”“慈济”“医院”“朝阳区慈济医院”，个人感觉这样比较符合要求。[/size]

代码上的区别：

SortingDictionariesCompiler
Dictionary vocabularyDictionary = dictionaries.getVocabularyDictionary();
File vocabularyFile = new File(compiledDicHomeFile, "vocabulary.dic.compiled");
sortCompile(vocabularyDictionary, vocabularyFile, charsetName);


MostWordsModeDictionariesCompiler
Dictionary vocabularyDictionary = dictionaries.getVocabularyDictionary();
File vocabularyFile = new File(compiledDicHomeFile, "vocabulary.dic.compiled");
compileVocabulary(vocabularyDictionary, knife, vocabularyFile, charsetName);