ElasticSearch的中文分词器及自定义扩展词典

本文介绍如何通过安装es-ik插件解决ElasticSearch默认中文分词器存在的问题,并详细说明了自定义扩展词典的具体步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

因为ElasticSearch默认的中文分词器对中文分词不是很友好,会将中文词语拆分成一个个中文的汉字,因此引入中文分词器:es-ik插件。
官方网站下载:https://github.com/medcl/elasticsearch-analysis-ik/releases
注意:es-ik分词插件版本一定要和es安装的版本对应

安装步骤

第一步 把下载的elasticsearch-analysis-ik-6.7.0.zip重命名为ik.zip并解压
第二步 上传到/opt/application/es6.7.0/plugins下
第三步 重启elasticsearch即可

自定义扩展词典

第一步 在/opt/application/es6.7.0/plugins/ik/config下创建目录:mkdir custom
第二步 在/opt/application/es6.7.0/plugins/ik/config/custom下创建文件:vi new_word.dic,并在该文件内输入新词:
            王者荣耀
            联通云
            硅谷亮城
第三步 在/opt/application/es6.7.0/plugins/ik/config下执行 vi IKAnalyzer.cfg.xml
            <?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 -->
        <entry key="ext_dict">custom/new_word.dic</entry>
         <!--用户可以在这里配置自己的扩展停止词字典-->
        <entry key="ext_stopwords"></entry>
        <!--用户可以在这里配置远程扩展字典 -->
        <!-- <entry key="remote_ext_dict">words_location</entry> -->
        <!--用户可以在这里配置远程扩展停止词字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

1 默认分词器

POST http://192.168.86.128:9200/_analyze
{
    "analyzer":"standard",
    "text":"苹果手机"
}
{
  "tokens": [
    {
      "token": "苹",
      "start_offset": 0,
      "end_offset": 1,
      "type": "<IDEOGRAPHIC>",
      "position": 0
    },
    {
      "token": "果",
      "start_offset": 1,
      "end_offset": 2,
      "type": "<IDEOGRAPHIC>",
      "position": 1
    },
    {
      "token": "手",
      "start_offset": 2,
      "end_offset": 3,
      "type": "<IDEOGRAPHIC>",
      "position": 2
    },
    {
      "token": "机",
      "start_offset": 3,
      "end_offset": 4,
      "type": "<IDEOGRAPHIC>",
      "position": 3
    }
  ]
}

2 ik分词器

POST http://192.168.86.128:9200/_analyze
{
    "analyzer":"ik_smart",
    "text":"苹果手机"
}
{
  "tokens": [
    {
      "token": "苹果",
      "start_offset": 0,
      "end_offset": 2,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "手机",
      "start_offset": 2,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 1
    }
  ]
}
欢迎关注我的微信公众号,不定期更新文章和大家一起学习共勉-

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值