28.2 IK分词器

LB_bei

已于 2023-08-22 12:12:22 修改

阅读量179

点赞数

分类专栏： JavaEE 文章标签： java 中文分词

于 2023-07-26 09:05:30 首次发布

本文链接：https://blog.youkuaiyun.com/LB_bei/article/details/131931037

版权

34 篇文章

订阅专栏

1.IK分词器

之前我们创建索引，查询数据，都是使用的默认的分词器，分词效果不太理想，会把text的字段分成一个一个汉字。IK分词器在是一款基于词典和规则的中文分词器。

Analysis-文本分析是把全文本转换一系列单词的过程，叫分词。

举例：默认英文句子是通过空格进行分词并进行小写转换

doc1：A happy new year to you 可以分词为 a 、happy、new、year、to、you

doc2：Happy birthday 可以分词为happy 、birthday

Analyzer分词器是分词的技术实现，在ES中就提供了以下多种分词器进行不同方式的分词操作

其他三方分词器，如 IK，THULAC

下载与你ES对应版本的IK分词器。

在/es安装目录/plugins目录新建ik目录

将elasticsearch-analysis-ik-8.8.2内容解压缩到ik目录下

IK分词器有两种分词模式：ik_max_word和ik_smart模式。

会做最粗粒度的拆分，比如会将测试开发工程师拆分为测试、开发、工程师等词语。

会将文本做最细粒度的拆分，比如会将`测试开发工程师拆分为测试、试开、开发、工程师、工程、师。

# 查看IK分词效果
get _analyze
{
  "analyzer": "ik_smart",
  "text": "测试开发工程师"
}
get _analyze
{
  "analyzer": "ik_max_word",
  "text": "测试开发工程师"
}