Solr4.2.1中文分词

最新推荐文章于 2025-12-26 16:44:39 发布

最新推荐文章于 2025-12-26 16:44:39 发布 · 263 阅读

文章标签：

#solr #paoding #lucene

搜索专栏收录该内容

0 篇文章

订阅专栏

本文介绍如何将Paoding分词器集成到Solr以实现中文分词功能，包括解决兼容性问题的方法、配置步骤及所需注意事项。

默认的Solr没有中文分词功能，而Paoding则是能兼容Lucene的中文分词工具，但是目前Paoding的版本只能兼容lucene3。还好有大神已经给出了解决方法，参考：http://www.oschina.net/code/snippet_259382_14635，此方法兼容到Solr4.2.1。

但是直接使用的时候，会报NullPointer异常，需要修改一下文件，去掉toString()，src/net/paoding/analysis/ext/PaodingAnalyzerSolrFactory.java：

 public void init(Map<String, String> args) {
        super.init(args);
        setMode(args.get("mode"));
    }

然后把Lucene4.2.1的jar包复制到paoding的lib目录下（lucene-core-4.2.1.jar，lucene-memory-4.2.1.jar，lucene-analyzers-common-4.2.1.jar，lucene-highlighter-4.2.1.jar），并把lucene3.0的jar包删除。因为Lucene4和Lucene3不能完全兼容，Paoding源码里的example已经不能用了，所以在build的时候需要把它们排除掉（修改build.xml，把带有examples的行都删除）。

使用Paoding的时候，还要指定词库，方法是修改src下的paoding-dic-home.properties文件，将paoding.dic.home设成词典路径。

开始编译吧

ant build

现在已经生成paoding-analysis.jar了，我们还要把它添加到Solr中。

首先需要做的是，把paoding-analysis.jar添加到Solr的example/webapps/solr.war/WEB-INF/lib/中。

然后修改Solr example的schema文件solr/collection1/conf/schema.xml，找到name=”text_general”这个fieldType，将其中tokenizer对应之class换为(index和query之下class都要换)net.paoding.analysis.ext.PaodingAnalyzerSolrFactory。

大功告成，重启Solr吧

修改之后的代码在github上https://github.com/wylazy/paoding

后记：

IKAnalyzer是一个比较活跃的中文分词工具，比Paoding更新要快一些，而且已经支持Solr4.2.1了。配置方法也更简单，只需要修改solr.war就行了。

1.将ik-analyzer-2012ff-u1.jar复制到WEB-INF/lib目录下

2.将IKAnalyzer.cfg.xml和stopword.dic复制到WEB-INF/classes/目录下

3.修改solr/collection1/conf/schema.xml，让其使用IK作为分词工具

    <fieldType name="text_general" class="solr.TextField">
      <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
      <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
    </fieldType>