一:查看分词器的分词效果
1.步骤:
a、创建一个分词器对象
b、调用分词器对象的tokenStream方法,参数就是要分词的内容,返回TokenStream对象
c、遍历TokenStream对象
(1)、设置引用,代表当前的关键词。相当于指针
(2)、调用tokenStream的rest方法
(3)、循环tokenSteam中的内容
(4)、打印单词列表
d、关闭tokenSteam
2.具体代码
@Test
public void testTokenStream() throws Exception {
// 1)创建一个分析器对象
//Analyzer analyzer = new StandardAnalyzer();
// 2)调用分析器对象的tokenStream方法,参数就是要分析的内容。返回TokenStream对象。
//参数1:域的名称,此时可以任意 参数2:要分析的文本内容
TokenStream tokenStream = analyzer.tokenStream("", "鲁大师是国内最大的免费系统工具软件,免费提供硬件真伪辨别、电脑(手机)稳定保障、系统性能提升, 鲁大师拥有硬件检测、硬件测试、系统优化、节能降温、驱动安装、驱动");
// 3)遍历TokenStream对象
// a.设置引用,代表当前的关键词。相当于指针。
CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
// b.调用tokenstream的rest方法。
tokenStream.reset();
// c.循环取tokenstream中的内容
while(tokenStream.incrementToken()) {
// d.打印单词列表
System.out.println(charTermAttribute);
}
// 4)关闭tokenstream
tokenStream.close();
}
二:IK分词器的使用
1.导入jar包
2.导入配置文件以及扩展词停用词文件
3.配置文件配置
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">ext.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;</entry>
</properties>
4.代码编写
//创建一个标准分词器
Analyzer analyzer = new IKAnalyzer();