ES入门系列 — 5 查询语法

本文深入探讨Elasticsearch查询机制,覆盖查询与过滤模式、请求体查询、复合查询结构及查询精度控制等内容,旨在帮助读者掌握高效数据检索技巧。

简单写一个ES系列,希望对NewSql、检索有兴趣的同学可以快速入手,争取在7月份完成该系列文章

ES入门系列

1、Query String查询

# 查询在 tweet 类型中 tweet 字段包含 elasticsearch 单词的所有文档
GET /_all/tweet/_search?q=tweet:elasticsearch
# 上面等同于
GET /_all/tweet/_search?q=+name:john +tweet:mary
# 下面语句搜索返回包含 mary 的所有文档。对 _all 字段进行查找,除非设置特定字段,否则查询字符串就使# # 用 _all 字段进行搜索
GET GET /_search?q=mary

当索引一个文档的时候,Elasticsearch 取出所有字段的值拼接成一个大的字符串,作为 _all 字段进行索引。例如,当索引这个文档时:

{
    "tweet":    "However did I manage before Elasticsearch?",
    "date":     "2014-09-14",
    "name":     "Mary Jones",
    "user_id":  1
}

这就好似增加了一个名叫 _all 的额外字段:

"However did I manage before Elasticsearch? 2014-09-14 Mary Jones 1"

注意:刚开始开发一个应用时,_all 字段是一个很实用的特性。之后,你会发现如果搜索时用指定字段来代替 _all 字段,将会更好控制搜索结果。当 _all 字段不再有用的时候,可以将它置为失效


查询字符串搜索允许任何用户在索引的任意字段上执行可能较慢且重量级的查询,这可能会暴露隐私信息,甚至将集群拖垮。因为这些原因,不推荐直接向用户暴露查询字符串搜索功能,除非对于集群和数据来说非常信任他们。相反,我们经常在生产环境中更多地使用功能全面的 request body 查询API,除了能完成以上所有功能,还有一些附加功能。


2、请求体查询

Elasticsearch 使用的查询语言(DSL)拥有一套查询组件,这些组件可以以无限组合的方式进行搭配。包括查询模式和过滤模式

查询模式:查询就变成了一个“评分”的查询。和不评分的查询类似,也要去判断这个文档是否匹配,同时它还需要判断这个文档匹配的有 多好(匹配程度如何)。匹配程度越好评分越高,评分查询计算每一个文档与此查询的 相关程度,同时将这个相关程度分配给表示相关性的字段 _score,并且按照相关性对匹配到的文档进行排序。

过滤模式:查询被设置成一个“不评分”或者“过滤”查询。即,这个查询只是简单的问一个问题:“这篇文档是否匹配?”。回答也是非常的简单,yes 或者 no ,二者必居其一。

  • 查询差别:过滤查询(Filtering queries)只是简单的检查包含或者排除,这就使得计算起来非常快。考虑到至少有一个过滤查询(filtering query)的结果是 “稀少的”(很少匹配的文档),并且经常使用不评分查询(non-scoring queries),结果会被缓存到内存中以便快速读取。评分查询(scoring queries)不仅仅要找出匹配的文档,还要计算每个匹配文档的相关性,计算相关性使得它们比不评分查询费力的多。同时,查询结果并不缓存。
  • 性能区别:由于倒排索引(inverted index),一个简单的评分查询在匹配少量文档时可能与一个涵盖百万文档的filter表现的一样好,甚至会更好。但是在一般情况下,一个filter 会比一个评分的query性能更优异,并且每次都表现的很稳定。
  • 选取:使用查询(query)语句来进行 全文 搜索或者其它任何需要影响 相关性得分 的搜索。除此以外的情况都使用过滤(filters)

一旦组成了词项列表,这个查询会对每个词项逐一执行底层的查询,再将结果

### Elasticsearch 入门教程 #### 了解基本概念 Elasticsearch 是一种分布式搜索引擎,支持全文检索、结构化检索以及分析功能。其核心组件包括索引结构、查询解析器、查询执行器和缓存机制等[^1]。 #### 安装与配置 为了能够处理特定语言(如中文),可能需要安装额外的插件来增强分词能力。例如,可以通过如下命令安装 `IK Analyzer` 插件: ```bash ./elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.2/elasticsearch-analysis-ik-7.6.2.zip ``` 此操作将扩展 Elasticsearch 对于复杂文本的理解和支持[^2]。 #### 集群组建 当首次启动单个节点时,默认情况下它会自动形成名为 "elasticsearch" 的集群,并成为该集群的一部分。这意味着即使只有一个实例也在运行着完整的集群环境[^3]。 #### 数据管理 在 Elasticsearch 中,数据被存储为文档的形式,这些文档会被分配到不同的索引内。每个索引可以看作是一个逻辑容器,用于保存相似类型的记录集合。通过定义映射(mapping),用户能指定每种字段的数据类型及其属性。 #### 查询方式 对于简单的关键词匹配需求来说,可以直接利用 RESTful API 发送 HTTP 请求来进行搜索请求;而对于更复杂的条件组合,则需构建 JSON 格式的 DSL (Domain Specific Language) 来表达意图。DSL 提供了一套灵活而强大的语法体系,允许开发者精确控制查找范围及排序规则等细节。 #### 实际案例:中文关键字搜索 假设要在一个包含大量文章摘要的信息库中寻找关于“人工智能”的资料,那么就可以编写类似于下面这样的查询语句: ```json GET /article/_search { "query": { "match_phrase": { "content": "人工智能" } } } ``` 这段代码表示从名称为 `article` 的索引里筛选出那些内容(`content`)中含有短语 “人工智能” 的条目。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值