【ELK04】ES 分词计算、IK分词器安装使用手册和热词动态更新

本文介绍了Elasticsearch(ES)中的分词概念,重点讲解了IK分词器的安装、使用和配置,包括如何进行热词动态更新。通过示例展示了IK分词器对中文文本的分词效果,以及如何自定义扩展词典和停用词典以优化分词结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本小结主要了解的内容是:

  • 了解分词器的概念
  • 掌握IK分词器和热词配置

1.分词

ES中为了方便查询,提供多维度的查询功能,对存储在索引中的文档进行分词计算,但是文本内容不同,类型不同,语言不同分词计算逻辑就不会一样.

1.1概括

文本分析使Elasticsearch能够执行全文搜索,其中搜索返回所有相关结果,而不仅仅是精确匹配.如果您搜索"王者荣耀",您可能希望包含"王者","荣耀"和"王者荣耀"的文档,还可能希望包含相关"王"或"者"的文档。

  • Tokenization

该过程将文本拆分成一小块一小块,这一小块内容称之为token,大多数情况下一个token代表着一个词语;

  • Normalization

词条化允许在单个术语上进行匹配,但是每个标记仍然是字面上匹配的。这就意味着:

  1. 搜索"Quick"不会匹配"quick",即使你觉得或希望这样
  2. 虽然"fox"和"foxes"有着相同的词根,但是对于fox的搜索并不匹配foxes,反之亦然。
  3. 搜索"jumps"不会匹配"leaps",他们不同根,但是同义.

这些问题可以通过Normalizatin解决,将词条规范化标记.这就允许你不仅能使用精确的匹配搜索,还可以使用相关性查询.

1.2分词器

应对不同的分词计算逻辑,ES中使用了不同的底层的分词器.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Alex_81D

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值