【Elasticsearch】match查询

原创

于 2025-02-12 20:37:03 发布 · 1.2k 阅读

·

8

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

Elasticsearch 的`match`查询是全文搜索中最常用和最强大的查询类型之一。它允许用户在指定字段中搜索文本、数字、日期或布尔值，并提供了丰富的功能来控制搜索行为和结果。以下是`match`查询的详细解析，包括其工作原理、参数配置和使用场景。

1.`match`查询的基本概念

`match`查询是 Elasticsearch 中用于执行全文搜索的标准查询方式。它通过分析器（Analyzer）对查询文本进行处理，然后在指定字段中搜索匹配的文档。`match`查询的主要特点是它能够处理复杂的文本数据，并提供灵活的搜索选项。

2.`match`查询的工作原理

`match`查询的工作过程可以分为以下几个步骤：

2.1 文本分析

查询文本首先会被分析器处理，分析器会将查询文本分解为一系列的词元（Tokens）。分析器通常包括以下几个部分：

• 分词器（Tokenizer）：将文本分解为词元。

• 过滤器（Token Filters）：对词元进行进一步处理，如小写化、停用词过滤、词干提取等。

• 字符过滤器（Character Filters）：对原始文本进行预处理，如删除HTML标签、替换特殊字符等。

2.2 构建布尔查询

分析器处理后的词元会被用来构建一个布尔查询（`boolean query`）。布尔查询是`match`查询的核心，它通过布尔逻辑（`AND`或`OR`）来组合多个词元的匹配条件。

• `operator`参数：

• `OR`（默认值）：文档中包含查询词中的任意一个词元即可匹配。

• `AND`：文档中必须包含查询词中的所有词元才能匹配。

2.3 模糊匹配（可选）

如果启用了模糊匹配（通过`fuzziness`参数），Elasticsearch 会为每个词元生成模糊变体，并尝试匹配这些变体。模糊匹配允许一定程度的拼写错误或相似性匹配。

2.4 同义词扩展（可选）

如果字段定义中使用了同义词过滤器（如`synonym_graph`），`match`查询会将查询词扩展为同义词，并尝试匹配这些同义词。

2.5 查询执行

构建好的布尔查询会被执行，Elasticsearch 会搜索索引中的文档，找出匹配的文档。每个文档的相关性分数（`_score`）会根据匹配的词元数量、词频、倒排索引等因素计算得出。

2.6 结果返回

最终，Elasticsearch 会返回匹配的文档列表，以及每个文档的相关性分数。用户可以通过其他参数（如`from`和`size`）来分页显示结果。

3.`match`查询的参数

`match`查询支持多种参数，这些参数可以用来控制查询的行为和结果。以下是一些常用的参数：

3.1`query`（必需）

查询文本，可以是文本、数字、日期或布尔值。

3.2`analyzer`（可选）

用于分析查询文本的分析器。默认情况下，Elasticsearch 使用字段在索引时定义的分析器。如果没有定义分析器，则使用索引的默认分析器。

3.3`operator`（可选）

布尔逻辑，用于组合查询词元：

• `OR`（默认值）：文档中包含查询词中的任意一个词元即可匹配。

• `AND`：文档中必须包含查询词中的所有词元才能匹配。

3.4`fuzziness`（可选）

允许的模糊匹配程度，可以是以下值之一：

• `0`：不启用模糊匹配。

• `1`或`2`：允许的编辑距离。

• `AUTO`：自动根据词元长度选择合适的编辑距离。

3.5`prefix_length`（可选）

模糊匹配中不变的前缀字符数量。默认值为`0`。

3.6`max_expansions`（可选）

模糊匹配中生成的最大词元数量。默认值为`50`。

3.7`fuzzy_transpositions`（可选）

是否允许字符置换（如`ab`→`ba`）。默认值为`true`。

3.8`boost`（可选）

用于调整文档相关性分数的提升值。默认值为`1.0`。值越小，相关性分数越低；值越大，相关性分数越高。

3.9`minimum_should_match`（可选）

必须匹配的子句的最小数量。可以是整数（如`3`）或百分比（如`75%`）。

3.10`zero_terms_query`（可选）

如果分析器移除了所有查询词元（如停用词过滤器），是否返回所有文档：

• `none`（默认值）：不返回任何文档。

• `all`：返回所有文档，类似于`match_all`查询。

3.11`auto_generate_synonyms_phra

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。