jieba(结巴)分词整和Elasticsearch

Jieba 分词 安装到 Elasticsearch 并结合 Java 实现是一个复杂但有效的方案。由于 Elasticsearch 并没有原生支持结巴分词,需要通过自定义插件或者应用层预处理的方式来实现。

下面是两种方案来整合 Jieba 分词与 Elasticsearch 并结合 Java 使用的具体步骤。

方案一:自定义 Elasticsearch 分词插件(复杂度较高)

在这个方案中,你需要开发一个自定义的 Elasticsearch 分词插件,将 Jieba 分词集成进 Elasticsearch。这个方法需要对 Elasticsearch 插件开发有一定了解。

1. 创建自定义 Elasticsearch 插件
  1. 配置 Maven 项目

    使用 Maven 创建一个项目,配置 pom.xml,让它依赖于 Elasticsearch 的插件开发库。

    <dependencies>
        <dependency>
            <groupId>org.elasticsearch.plugin</groupId>
            <artifactId>elasticsearch-plugin-classloader</artifactId>
            <version>7.17.7</version> <!-- 对应你的ES版本 -->
        </dependency>
        <dependency>
            <groupId>org.elasticsearch</groupId>
            <artifactId>elasticsearch</artifactId>
            <version>7.17.7</version> <!-- 对应你的ES版本 -->
        </dependency>
         <dependency>
            <groupId>com.huaban</groupId>
            <artifactId>jieba-analysis</artifactId>
            <version>1.0.2</version><!-- 对应你选择的结巴依赖 -->
         </dependency>
    </dependencies>
    

  2. 编写分词插件

    创建一个继承 TokenizerFactory 的类,利用 JiebaAnalyzer 来进行分词。

    import com.huaban.analysis.jieba.JiebaSegmenter;
    import org.apache.lucene.analysis.Tokenizer;
    import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
    import org.apache.lucene.util.AttributeFactory;
    
    public class JiebaTokenizer extends T
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值