如果使用中文,使用ik分词器
ik提供了两个分词算法:ik_smart和ik_max_word ,其中ik_smart为最少切分,ik_max_word为最细粒度划分
ik_smart(最少切分):表示只切一次,组成两个词。
ik_max_word(最细粒度划分):穷尽词库,挑选所有的可能
GET _analyze
{
"analyzer": "ik_smart",
"text": "最少切分"
}
GET _analyze
{
"analyzer": "ik_max_word",
"text": "最细粒度划分"
}
在ik中原来默认的字词是远远不够用的,这个时候就可以自己组用字词 ,写一个字词解析器的文档:比如我手动创建的zxq.dic文件
内容如图所示:
然后在IKAnalyzer.cfg.xml中去配置,如图所示
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">zxq.dic</entry>