2022还在使用Mysql进行数据检索?ElasticSearch自定义扩展词库完成检索

本文介绍了如何通过自定义扩展词库来增强IK中文分词器的功能,以识别网络热词。首先,讨论了自定义词库的必要性,然后详细讲解了通过Docker安装Nginx并保存词库的步骤,接着说明了如何修改IK分词器配置以指向Nginx词库,并展示了测试分词效果的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


1.为什么要自定义扩展ES词库呢?

虽然IK-中文分词器已经很强悍了,能够识别大多数的词汇,但是对于网络中新兴的网络词汇是无法识别的(比如“爷青回” “打工人”)

下图是我在Kibana对“爷青回”的分词情况
在这里插入图片描述
分词结果如下:
在这里插入图片描述
本身我们想让“爷青回”作为一个词,由于是网络词汇,IK-分词器是无法识别出的,所以需要我们自定义扩展词库

2.如何自定义扩展词库呢?

有两种思路,如下所示:

  • Ⅰ.我们构建一个词库服务器,让IK分词器给我们的词库服务器发送请求即可
  • Ⅱ.使用web服务器保存我们的词库;例如nginx服务器,只需要将我们的词汇保存到nginx,然后让IK分词器向nginx发送请求即可。

3.Docker安装Nginx

(1)新建文件夹方便一会挂载

mkdir -p /mydata/nginx/html
mkdir -p /mydata/nginx/logs
mkdir -p /mydata/nginx/conf

(2)给予这些文件可读可写可执行的权限

cd /mydata/
chmod -R 777 mydata/
-R表示递归mydata下的所有文件给予RWX权限

(3)拉取nginx镜像并运行

docker pull nginx:1.14.2

docker run --name nginx -p 80:80 -v /mydata/nginx/conf/nginx.conf:/etc/nginx/nginx.conf -v /mydata/nginx/conf/conf.d:/etc/nginx/conf.d -v /mydata/nginx/logs:/var/log/nginx -v /mydata/nginx/html:/usr/share/nginx/html -d nginx

–name :表示为该容器起的名字
-p:表示指定端口
-v:表示挂载文件
可以看出我对nginx.conf、conf.d、logs、html进行了文件挂载,方便以后操作

docker ps查看结果
在这里插入图片描述
在html文件夹下,新建一个a.html文件,向文件里面追加echo “< a> HELLO </ a>”

浏览器访问http://ip:80/a.html(注意如果是云服务器记得将80端口对外开放

在这里插入图片描述
nginx安装成功!


4.在nginx中保存一个简易词库

后期可以自行扩展,编写一个脚本程序,定时爬取各大网站的热点网络词汇,然后更新到该词库即可。

在html目录下,新建一个word-house文件夹
在这里插入图片描述
cd到word-house目录下,新建一个split-word.txt文件,向里面加入如下内容

在这里插入图片描述

5.修改IK分词器的配置文件,让其指向nginx保存的词库

进入es容器内部:docker exec -it elasticsearch /bin/bash
cd到指定目录下:cd /usr/share/elasticsearch/plugins/ik/config
在这里插入图片描述
编辑IKAnalyzer.cfg.xml:vi IKAnalyzer.cfg.xml

打开远程扩展字典

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户可以在这里配置自己的扩展字典 -->
        <entry key="ext_dict"></entry>
         <!--用户可以在这里配置自己的扩展停止词字典-->
        <entry key="ext_stopwords"></entry>
        <!--用户可以在这里配置远程扩展字典 -->
         <entry key="remote_ext_dict">http://292.168.56.10/word-house/split-word.txt</entry>
        <!--用户可以在这里配置远程扩展停止词字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

在这里插入图片描述

重启ElasticSerach容器:docker restart elasticsearch

6.测试分词效果

重启之后,稍等片刻,访问Kibana
在这里插入图片描述
在这里插入图片描述
查看分词结果
在这里插入图片描述
成功!

java.io.IOException: Broken pipe是一个异常,表示管道中的数据流被突然关闭导致数据中断。这个异常通常在读取文件或网络套接字的数据时出现。解决这个问题的方法取决于具体的情况和应用程序的要求。 以下是一些可能的解决方法: 1. 检查网络连接:确保网络连接稳定,没有断开或中断的情况。如果是网络问题导致的断开,可以尝试重新连接网络或检查网络配置。 2. 调整超时时间:如果在网络通信中出现Broken pipe异常,可以尝试调整超时时间,使其更适应实际情况。可以增加超时时间,以便给请求更多的时间来完成操作。 3. 优化代码:检查代码中是否有资源泄漏或未关闭的连接。确保在使用完数据流后及时关闭它们,以防止出现异常。 4. 重新尝试操作:如果Broken pipe异常是由于网络问题导致的,可以尝试重新执行操作。在发生异常后,重新建立连接并重试之前的操作。 5. 增加线程池大小:如果在高并发情况下出现Broken pipe异常,可能是由于线程池大小不足导致的。可以考虑增加线程池的大小,以提供足够的线程来处理请求。 请注意,这些解决方法只是一些可能的方案,具体解决方法需要根据具体情况进行调整。建议在解决问题之前仔细分析异常的原因,并进行相应的调试和测试。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [关于java.io.IOException: Broken pipe解决办法。](https://blog.csdn.net/ChenLong_0317/article/details/103860269)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Thecoastlines

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值