jieba（结巴）分词整和Elasticsearch

原创

已于 2024-10-17 17:02:22 修改 · 1.7k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#elasticsearch #java

于 2024-10-17 15:47:04 首次发布

将 Jieba 分词 安装到 Elasticsearch 并结合 Java 实现是一个复杂但有效的方案。由于 Elasticsearch 并没有原生支持结巴分词，需要通过自定义插件或者应用层预处理的方式来实现。

下面是两种方案来整合 Jieba 分词与 Elasticsearch 并结合 Java 使用的具体步骤。

方案一：自定义 Elasticsearch 分词插件（复杂度较高）

在这个方案中，你需要开发一个自定义的 Elasticsearch 分词插件，将 Jieba 分词集成进 Elasticsearch。这个方法需要对 Elasticsearch 插件开发有一定了解。

1. 创建自定义 Elasticsearch 插件

配置 Maven 项目

使用 Maven 创建一个项目，配置 pom.xml，让它依赖于 Elasticsearch 的插件开发库。

<dependencies>
    <dependency>
        <groupId>org.elasticsearch.plugin</groupId>
        <artifactId>elasticsearch-plugin-classloader</artifactId>
        <version>7.17.7</version> <!-- 对应你的ES版本 -->
    </dependency>
    <dependency>
        <groupId>org.elasticsearch</groupId>
        <artifactId>elasticsearch</artifactId>
        <version>7.17.7</version> <!-- 对应你的ES版本 -->
    </dependency>
     <dependency>
        <groupId>com.huaban</groupId>
        <artifactId>jieba-analysis</artifactId>
        <version>1.0.2</version><!-- 对应你选择的结巴依赖 -->
     </dependency>
</dependencies>

编写分词插件

创建一个继承 TokenizerFactory 的类，利用 JiebaAnalyzer 来进行分词。

import com.huaban.analysis.jieba.JiebaSegmenter;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.AttributeFactory;

public class JiebaTokenizer extends T