ES 全文检索&完全匹配&高亮查询

最新推荐文章于 2025-03-15 19:32:25 发布

坚持的小马

最新推荐文章于 2025-03-15 19:32:25 发布

阅读量908

点赞数 2

文章标签：全文检索 elasticsearch 大数据

本文链接：https://blog.youkuaiyun.com/u010512158/article/details/142865103

版权

我们ES会将数据文字进行拆词操作，并将拆解之后的数据保存到倒排索引当中几十使用文字的一部分也能查询到数据，这种检索方式我们就称之为全文检索，ES的查询结果也会倒排索引中去查询匹配

下面的查询结果中输入的词，就是输入小也可以，输入米也可以

传递的参数

{
    "query" :{
        "match" : {
            "category": "小"
        }
    }
}

这个输入的字词的数据，输入小华，就是小米和华为的数据都是可以出来的

完全匹配，就是要跟对应参数的词一样如下

{
    "query" :{
        "match_phrase" : {
            "category": "小华"
        }
    }
}

会看到这样子就是没有数据的

高亮查询：

{
    "query" :{
        "match_phrase" : {
            "category": "小米"
        }
    },
    "highlight" : {
        "fields": {
            "category": {}
        }
    }
}

上述参数就是设置那个属性我们进行高亮显示

这一节就属于高亮显示了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

坚持的小马

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Elasticsearch】elasticsearch 查询高亮

九师兄

05-09

1706

许多应用都倾向于在每个搜索结果中高亮显示搜索的关键词，比如字体的加粗,改变字体的颜色等.以便让用户知道为何该文档符合查询条件。在 Elasticsearch 中检索出高亮片段也很容易。为了执行突出显示，需要该字段的实际内容。如果存储了相关字段（已在映射中store设置true），则将使用_source该字段，否则将加载实际字段并从中提取相关字段。该_all字段无法从中提取_source，因此只有在映射为已store设置的情况下才能用于突出显示true。} } } }

Elasticsearch 全文检索 全面解析

专注于数据库技术分享，包含但不限于Oracle，MySQL，PostgreSQL，ElasticSearch及国产数据库等

04-20

657

Elasticsearch 全文检索涵盖了从数据索引、查询构建、相关度计算到结果呈现的完整流程，其分布式架构、灵活的数据模型、强大的查询能力以及丰富的分析功能，使之成为现代应用程序中不可或缺的全文搜索解决方案。：系统首先对文档中的每个单词（或词汇单元）创建索引，记录每个词及其在文档中的位置、出现频率、上下文等相关信息。：找到匹配文档后，Elasticsearch 会根据特定的相关度算法计算每个文档与查询条件的匹配程度，并按照相关度得分对结果进行排序。：定义索引中字段的数据类型、分析器设置、是否存储等属性。

参与评论您还未登录，请先登录后发表或查看评论

Elasticsearch7.8.0版本入门—— 完全匹配查询文档（高级查询）

小志的博客

01-19

1916

Elasticsearch7.8.0版本入门—— 完全匹配查询文档（高级查询）

Elasticsearch分页查询、关键词高亮与性能优化全解析

qu1210的博客

03-15

987

用户界面分页浅分页（<1000条）：使用from/size无限滚动：使用search_after或PIT数据导出小数据量：使用from/size大数据量：使用scroll或异步搜索实时数据要求需要实时数据：使用search_after需要一致性视图：使用PIT。

es 7.x http 全文检索 完全匹配高亮查询

Java持续实践

01-09

1574

文章目录全文检索完全匹配高亮查询 全文检索 请求方式get 请求url: http://127.0.0.1:9200/shopping/_search 请求体执行如下的请求: { "query":{ "match":{ "category":"小华" } } } 得到的查询结果如下: { "took": 13, "timed_out": false, "_shards": { "total":

Elasticsearch实战应用：打造高效的全文搜索与高亮显示功能

运维人生

12-12

1146

Elasticsearch（简称ES）是一个基于Lucene构建的开源全文检索服务器，支持分布式搜索和分析。它主要用于处理非结构化数据，如文本、日志等，能够高效地进行全文搜索、日志分析等操作。Elasticsearch采用RESTful风格的HTTP接口，支持JSON格式的请求和响应，便于集成到各种编程语言和应用系统中。通过本文的介绍，我们了解了如何在Elasticsearch中实现全文搜索与高亮显示功能。在实际应用中，还可以根据具体需求进行进一步优化。

ElasticSearch的全文搜索与高亮显示: 提升搜索体验

AI天才研究院

01-18

1537

1.背景介绍 ElasticSearch是一个开源的搜索和分析引擎，基于Lucene库，具有实时搜索、分布式搜索和高性能等特点。它可以用于实现全文搜索、文本分析、数据聚合等功能。在现代应用中，ElasticSearch被广泛应用于搜索引擎、知识管理系统、日志分析、实时数据处理等领域。全文搜索是指在文档中搜索包含特定关键词的内容。高亮显示则是在搜索结果中以粗体或其他方式突出显示关键词，以便用户...

ElasticSearch 6.x 学习笔记：19.搜索高亮

程裕强的专栏

01-19

9068

19.1 高亮概述参照官方文档 https://www.elastic.co/guide/en/elasticsearch/reference/6.1/search-request-highlighting.html Highlighters enable you to get highlighted snippets from one or more fields in your sea

ElasticSearch-全文检索快速入门

Hacah的博客

11-04

1114

全文搜索属于最常见的需求，开源的 Elasticsearch 是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。

ElasticSearch全文检索-从零到入门

qq_20068025的博客

01-09

2725

ElasticSearch全文检索从零到入门。本文有从零基础到做出一个像模像样的全文检索功能所需的全部知识点，包括：全文检索的概念、倒排索引、分析与分词器、相关性、相关度算分、BM25、算分公式、ik分词器、ES内置分词器、控制相关度等。

elasticsearch匹配关键词高亮+中文分词（包含数组字段处理）

Tino's Space

07-27

6339

开始前准备 springdata elastic接入方法 https://blog.youkuaiyun.com/qq_36289377/article/details/105843733 对应版本 elasticsearch 6.8 spring-boot 2.2.2.RELEASE spring-boot-starter-data-elasticsearch 2.2.2.RELEASE 本片文章创作时，es最新版为7.2，可以兼容，6.0以下版本需要根据版本改部分代码，主要是低版本的几个Hits类不同，其他差别不大

Elasticsearch实现复合查询高亮结果功能

12-01

一.Es的配置实现es的全文检索功能的第一步,首先从与es进行连接开始,这里我使用的是es的5.x java api语法. public TransportClient esClient() throws UnknownHostException{ Settings settings = Settings.builder() .put("cluster.name", "my-application") //节点的名字 .put("client.transport.sniff", true) .build(); InetSock

MySQL 全文检索的实现

古时的风筝

11-21

6577

这有朋友聊到他们的系统中要接入全文检索，这让我想起了很久以前为一个很古老的项目添加搜索功能的事儿。一提到全文检索，我们首先就会想到搜索引擎。也就是用一个词、一段文本搜索出匹配的内容。一般这种技术都有对应的实现方式，ES（ElasticSearch）就是专门干这个的，如果你们的业务中明确需要全文检索，或者简单一点说，需要根据关键词搜索出匹配的内容，那就直接用 ES 就好了。无论你怎么调研，都不推荐使用 MySQL 实现这种需求，显而易见，MySQL 作为关系型数据库，本身就不适合做搜索这种需求。

ES--highlight(高亮)查询

最新发布

03-19

<think>好的，我现在需要解决用户关于Elasticsearch（ES）使用分词高亮查询导致无法全匹配搜索内容的问题。首先，我得回忆一下ES的基本工作原理，尤其是分词和高亮的部分。用户提到用了分词后，高亮显示的结果不全，可能无法精确匹配搜索内容。这可能是因为分词的步骤将查询词拆分成多个词项，导致高亮时只能匹配到部分词汇。首先，我应该考虑ES的分词过程。当用户进行搜索时，ES默认会对查询文本进行分词处理，比如使用标准分词器（standard analyzer），它会根据空格和标点拆分文本。例如，搜索“quick brown”会被拆分成“quick”和“brown”两个词项，然后在索引中查找包含这两个词的文档。高亮功能会根据这些分词后的词项来标记匹配的部分，但如果用户希望整个短语完全匹配，这种分词方式可能不准确。接下来，用户的问题可能出在分词器过于宽松，导致无法精确匹配整个短语。这时候可能需要使用不同的查询类型，比如match_phrase查询，它要求词项按照顺序完全匹配，并且可以通过slop参数允许一定的位置偏移。同时，高亮显示需要正确配置，确保能够反映短语匹配的情况。另外，用户可能没有意识到索引和搜索时使用的分词器不一致，这也会导致分词结果不匹配。例如，索引时使用了某个自定义分词器，而搜索时使用了不同的设置，使得分词后的词项不一致，从而影响高亮结果。还有，高亮器的选择也很重要。ES默认使用unified高亮器，但也支持其他类型，比如plain高亮器，可能在处理某些情况时表现不同。此外，高亮设置中的参数，如number_of_fragments、pre_tags和post_tags，也会影响最终显示的效果，需要检查是否配置正确。可能的解决方案包括： 1. 使用match_phrase查询代替普通的match查询，确保短语完全匹配。 2. 调整分词器，可能在查询时使用不分析的关键字类型（keyword），避免分词。 3. 自定义同义词或使用多字段映射，在索引时保留原始字段的精确值。 4. 检查高亮配置，确保使用正确的字段和分析器。不过，用户可能在实际操作中遇到具体问题，比如某个特定的查询没有正确高亮，或者分词的规则不符合业务需求。需要根据具体情况调整查询方式或索引设置。例如，对于需要精确匹配的字段，可以设置为keyword类型，这样搜索时必须全匹配，高亮也会正确显示整个词。还需要考虑是否涉及到中文字符的问题，因为中文分词通常更复杂，使用IK分词器等工具时，如果分词粒度不合适，可能导致无法全匹配。这时候可能需要调整分词器的词典或使用细粒度分词。总结下来，解决这个问题的步骤应该是：确认查询类型是否正确，检查分词器是否一致，调整高亮配置，可能需要对字段的映射进行调整，或者在查询时使用更精确的匹配方式。同时，可能需要测试不同的配置，查看高亮结果的变化，找到最适合用户需求的方式。</think>针对Elasticsearch使用分词高亮查询后无法全匹配搜索内容的问题，以下是逐步分析与解决方案： --- ### **一、问题根源** 1. **分词机制影响匹配** Elasticsearch默认对文本字段进行分词（如`standard analyzer`），将搜索词拆分为多个词项。例如： - 搜索词`"数据库查询"` → 分词为`["数", "据", "库", "查", "询"]` - 高亮时仅匹配部分词项（如`"数"`和`"库"`），而非完整短语。 2. **查询类型选择不当** 若使用`match`查询，会默认分词后检索，导致无法强制全匹配。 --- ### **二、解决方案** #### **方法1：改用短语匹配（Phrase Match）** **适用场景**：需完全匹配搜索词的顺序和邻近性。 **操作步骤**： 1. 使用`match_phrase`查询： ```json GET /your_index/_search { "query": { "match_phrase": { "content": "数据库查询" } }, "highlight": { "fields": { "content": {} } } } ``` 2. **参数调整**： - `slop`：允许词项间的位置偏移量（默认0，即严格顺序匹配）。 --- #### **方法2：自定义字段映射（Keyword类型）** **适用场景**：需完全精确匹配，禁用分词。 **操作步骤**： 1. 修改字段映射，添加`keyword`类型子字段： ```json PUT /your_index { "mappings": { "properties": { "content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } } } } } ``` 2. 使用`term`查询并指定`keyword`字段： ```json GET /your_index/_search { "query": { "term": { "content.keyword": "数据库查询" } }, "highlight": { "fields": { "content.keyword": {} } } } ``` --- #### **方法3：自定义分词器（Ngram或Edge Ngram）** **适用场景**：需部分匹配但保留高亮完整性。 **操作步骤**： 1. 定义自定义分词器（以`edge_ngram`为例）： ```json PUT /your_index { "settings": { "analysis": { "analyzer": { "custom_ngram": { "tokenizer": "custom_tokenizer" } }, "tokenizer": { "custom_tokenizer": { "type": "edge_ngram", "min_gram": 1, "max_gram": 10 } } } } } ``` 2. 搜索时启用`analyzer`参数： ```json GET /your_index/_search { "query": { "match": { "content": { "query": "数据库查询", "analyzer": "custom_ngram" } } }, "highlight": { ... } } ``` --- #### **方法4：调整高亮配置** 优化高亮结果，确保完整匹配部分被标记： ```json "highlight": { "pre_tags": ["<strong>"], "post_tags": ["</strong>"], "fields": { "content": { "type": "plain", // 使用plain高亮器避免二次分词 "number_of_fragments": 0 // 返回完整字段内容 } } } ``` --- ### **三、验证与调试** 1. **分析分词结果**：使用`_analyze` API检查字段的分词效果： ```json GET /your_index/_analyze { "field": "content", "text": "数据库查询" } ``` 2. **检查查询计划**：添加`explain: true`查看匹配细节： ```json GET /your_index/_search { "explain": true, "query": { ... } } ``` --- ### **四、总结** | 方案 | 优点 | 缺点 | |---------------------|--------------------------|--------------------------| | `match_phrase`查询 | 保留词序和邻近性 | 无法容忍中间插入其他词 | | `keyword`字段 | 精确匹配 | 失去分词搜索灵活性 | | 自定义分词器 | 灵活控制匹配粒度 | 增加索引复杂度 | 根据实际需求选择合适的方案，通常建议结合`match_phrase`和`keyword`多字段映射，兼顾精确匹配与分词搜索。