java 中文文本分词
本文使用 classifier4J 以及 IKAnalyzer2012_u6 实现中文分词。可以增加自定义词库,词库保存为 “exdict.dic” 文件,一个词一行。
// MyTokenizer.java 文件
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.StringReader;
import java.util.ArrayList;
import java.util.Collection;
import java.util.List;
import net.sf.classifier4J.ITokenizer;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;
import org.wltea.analyzer.cfg.Configuration;
import org.wltea.analyzer.cfg.DefaultConfig;
import org.wltea.analyzer.dic.Dictionary;
import org.wltea.analyzer.lucene.IKTokenizer;
import org.apache.log4j.LogManager;
import org.apache.log4j.Logger;
/**
* 中文分词器类
*
* @author CSD
*
*/
@SuppressWarnings("deprecation")
public class MyTokenizer implements ITokenizer {
private static final Logger logger = LogManager.getLogger(MyTokenizer.class);
private List<String> list;
p