让搜索引擎更懂你-Elasticsearch自定义分词开发实践

最新推荐文章于 2025-09-19 12:29:48 发布

原创

最新推荐文章于 2025-09-19 12:29:48 发布 · 2k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#搜索引擎 #elasticsearch #大数据

本文介绍了Elasticsearch（ES）的倒排索引和分词原理，阐述了自定义分词如何解决模糊查询性能低和精确查询匹配问题。通过自定义分词服务开发，实现了无需重启集群即可动态更新分词词典，提高了查询效率和准确性。

1.为什么使用ES

ES（Elasticsearch）作为一个开源的高扩展的分布式全文检索引擎，自2016年起已经超过Solr，成为排名第一的搜索引擎应用，具有很多独特的优点。

它可以为几乎所有类型的数据提供近实时的索引、搜索和分析服务。无论是结构化或非结构化数据文本、数值数据、还是地理空间数据，ES都支持高效地存储和索引，并快速的提供搜索。
它本身扩展性很好。可以扩展到上百台服务器，处理PB级别的数据，由于索引具有副本机制，所以它也具有高可用优点。
它的使用简单。通过简单的RESTful API隐藏了Lucene的复杂性，从而让全文搜索变得简单易用。

2.什么是自定义分词

在说ES自定义分词之前，首先要弄清楚ES的倒排索引和分词原理。

2.1 倒排索引

ES每个分片都是一个Luence，Luence基于倒排索引进行搜索。在弄清楚倒排索引之前，先了解一下正排索引。正排索引存在于我们生活的方方面面，比如图书馆中，找一本书的流程是先找到哪个科室，哪个书架，第几层，从哪边数第几本才能找到我们想要的那本书。通过这个例子可以看出，正排索引是文档ID（可以理解为科室、书架）到文档内容、单词（可以理解为书）的关联关系。

如果我们在图书馆查询带有Elasticsearch字样的书籍时候，正排索引会找对应类型的科室、书架，最后找到很多书，再逐个查看哪一本带有Elasticsearch字样。可以想象，当图书馆的书足够多时，正排索引的查询会变得很慢。倒排索引解决了正排索引出现的问题，当我们查询带有Elasticsearch字样的书籍时，可以根据Elasticsearch这个词，直接找到对应的书的id，它是单词到文档Id的关联关系。