solr整合paoding分词注意的一些细节

最新推荐文章于 2018-03-06 10:54:21 发布

原创最新推荐文章于 2018-03-06 10:54:21 发布 · 289 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Solr #lucene #Tomcat #Apache #Web

solr&lucene 专栏收录该内容

2 篇文章

订阅专栏

本文介绍如何将Paoding分词器整合到Solr中，包括创建自定义分词器类、修改schema.xml文件及解决常见错误。

今天花了一个下午一个晚上，参考了网上许多资料，终于把paoding分词整合到solr中了，为了避免以后忘记，特此记录。
1.首先写一个类，这个类在网上都有，记录如下：
package com.test.slor.tokenizer;

import java.io.Reader;
import java.util.Map;

import net.paoding.analysis.analyzer.PaodingTokenizer;
import net.paoding.analysis.analyzer.TokenCollector;
import net.paoding.analysis.analyzer.impl.MaxWordLengthTokenCollector;
import net.paoding.analysis.analyzer.impl.MostWordsTokenCollector;
import net.paoding.analysis.knife.PaodingMaker;

import org.apache.lucene.analysis.TokenStream;
import org.apache.solr.analysis.BaseTokenizerFactory;

public class ChineseTokenizerFactory extends BaseTokenizerFactory {

/**
* 最多切分默认模式
*/
public static final String MOST_WORDS_MODE = "most-words";

/**
* 按最大切分
*/
public static final String MAX_WORD_LENGTH_MODE = "max-word-length";

private String mode = null;

public void setMode(String mode) {
if (mode == null || MOST_WORDS_MODE.equalsIgnoreCase(mode) || "default".equalsIgnoreCase(mode)) {
this.mode = MOST_WORDS_MODE;
} else if (MAX_WORD_LENGTH_MODE.equalsIgnoreCase(mode)) {
this.mode = MAX_WORD_LENGTH_MODE;
} else {
throw new IllegalArgumentException("不合法的分析器Mode参数设置:" + mode);
}
}

@Override
public void init(Map<String,String> args) {
super.init(args);
setMode(args.get("mode").toString());
}

public TokenStream create(Reader input) {
return new PaodingTokenizer(input, PaodingMaker.make(), createTokenCollector());
}

private TokenCollector createTokenCollector() {
if (MOST_WORDS_MODE.equals(mode))
return new MostWordsTokenCollector();
if (MAX_WORD_LENGTH_MODE.equals(mode))
return new MaxWordLengthTokenCollector();
throw new Error("never happened");
}

}
然后把这个类编译成.class文件，如果想打包，也可以直接打包成.jar文件。
2.修改solr的schema.xml文件，也记录如下：
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">

<tokenizer class="com.test.slor.tokenizer.ChineseTokenizerFactory" mode="most-words"/>
...
</analyzer>
<analyzer type="query">

<tokenizer class="com.test.slor.tokenizer.ChineseTokenizerFactory" mode="most-words"/>
...
</analyzer>
</fieldType>
3.把第1步编译好的.class文件或者.jar和paoding-analysis.jar 放到容器下，比如tomcat，那即是放到tomcat\webapps\solr\WEB-INF\lib\下，注意，是[color=red]solr[/color]的WEB-INF\lib\，而不是你手头的某个工程的WEB-INF\lib\下，由于我粗心大意，直接在myeclipse中把两个.jar包粘贴到手头工程的WEB-INF\lib\下，结果报异常：
org.apache.solr.common.SolrException: Unknown fieldtype 'text' specified on field title......
然后一个下午过去了...

当我发现这个问题，并把两个.jar放到正确的位置（如果是.class文件，则放在solr\WEB-INF\classes，其中要自己建classes文件夹），启动tomcat，却报如下异常：
严重: org.apache.solr.common.SolrException: Error loading class 'com.test.solr.tokenizer.ChineseTokenizerFactory'...
严重: org.apache.solr.common.SolrException: analyzer without class or tokenizer & filter list...
我使用的paoding是paoding-analysis-2.0.4-beta.zip，其中lib文件夹包含的lucene是lucene-core-2.2.0.jar，而我用的solr是apache-solr-1.3.0，其中tomcat\webapps\solr\WEB-INF\lib\包含的lucene是lucene-core-2.4-dev.jar。而在第一步，import org.apache.lucene.analysis.TokenStream; 时，我用的是lucene-core-2.2.0.jar，结果编译出来的.class（或.jar）文件，运行时就报异常了。当我改用lucene-core-2.4-dev.jar时，则成功在solr中加入paoding分词了。
嗯，晚上就是这样过去的...