hibernate search -- 中文词法分析

最新推荐文章于 2024-05-17 09:55:53 发布

开心的D哥

最新推荐文章于 2024-05-17 09:55:53 发布

阅读量3k

点赞数

分类专栏： Java Java Web 文章标签： hibernate lucene 搜索鲜果联播

本文链接：https://blog.youkuaiyun.com/cloud_ll/article/details/48785747

版权

Java 同时被 2 个专栏收录

106 篇文章

订阅专栏

Java Web

52 篇文章

订阅专栏

Hibernate Search 使用 Lucene 进行搜索，支持多种中文词法分析器如 Paoding、IKAnalyzer、mmseg4j 等。文章介绍了如何配置 Hibernate 以使用 Lucene 自带的中文分词器，包括在 Hibernate 配置文件中设置和在实体类中定义分词方法。特别提到了 mmseg4j 分词器的优点和依赖包引入。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hibernate search底层使用Lucene，所以Lucene可以使用的中文分词，hibernate search都可以用来支持中文词法分析，比较常用的词法分析器包括paoding，IKAnalyzer，mmseg4j 等等。具体可以参考分词分析最近分析。hibernate search默认的分词器是org.apache.lucene.analysis.standard.StandardAnalyzer，中文按字分词，显然不符合我们的需求。
这里介绍一下如何在hibernate中配置中文分词，选择的是Lucene自带的中文分词–。使用可以通过3种方式，一种是在hibernate的配置文件设置词法分析方法，另外一种是在每个需要被搜索的类中定义分词方法，最后一种是对单个字段配置。这里介绍下前2种的配置方式。
hibernate配置方式：

<property name="hibernate.search.analyzer"> org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer</property>

被搜索类配置中文分词：

@Indexed
@Analyzer(impl=SmartChineseAnalyzer.class)

同时需要在maven中引入相关包依赖

<dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-analyzers-smartcn</artifactId>
            <version>${lucene.version}</version>
        </dependency>