几种分词器:
WhitespaceAnalyzer
仅仅是去掉了空格,没有其他任何操作,不支持中文。
SimpleAnalyzer
讲除了字母以外的符号全部去除,并且讲所有字符变为小写,需要注意的是这个分词器同样把数据也去除了,同样不支持中文。
StopAnalyzer
这个和SimpleAnalyzer类似,不过比他增加了一个的是,在其基础上还去除了所谓的stop words,比如the, a, this这些。这个也是不支持中文的。
StandardAnalyzer(英文常用)
英文方面的处理和StopAnalyzer一样的,对中文支持,使用的是单字切割。
CJKAnalyzer
这个支持中日韩,前三个字母也就是这三个国家的缩写。这个对于中文基本上不怎么用吧,对中文的支持很烂,它是用每两个字作为分割,分割方式个人感觉比较奇葩,我会在下面比较举例。
SmartChineseAnalyzer(中文常用)
中文的分词。比较标准的中文分词,对一些搜索处理的并不是很好
本文介绍了多种分词器,包括WhitespaceAnalyzer、SimpleAnalyzer、StopAnalyzer、StandardAnalyzer、CJKAnalyzer及SmartChineseAnalyzer等,详细对比了它们的功能特点及适用场景,特别强调了对中文支持的情况。
502

被折叠的 条评论
为什么被折叠?



