ElasticSearch(3) -- IK分词器

最新推荐文章于 2025-07-05 11:39:19 发布

erainm

最新推荐文章于 2025-07-05 11:39:19 发布

阅读量220

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据学习文章标签： elasticsearch

本文链接：https://blog.youkuaiyun.com/eraining/article/details/108376688

大数据学习专栏收录该内容

148 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了ElasticSearch中IK分词器的使用，包括ik_max_word和ik_smart两种分词模式。ik_max_word模式进行最细粒度的拆分，而ik_smart模式更适合处理人名等特定词汇。还详细讲解了如何添加扩展词典和停用词典，以优化分词效果，并给出了配置和测试步骤。

ES支持的分词器有很多,这里我使用的是常用的IK分词器

1. 分词模式一:ik_max_word

会将文本最细力度的拆分
先在kibana测试一波输入下面的请求：

POST  _analyze
{
  "analyzer": "ik_max_word",
  "text": "南京市长江大桥"
}

结果:

{
  "tokens" : [
    {
      "token" : "南京市",
      "start_offset" : 0,
      "end_offset" : 3,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "南京",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "市长",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "市",
      "start_offset" : 2,
      "end_offset" : 3,
      "type" : "CN_CH

了解本专栏