ES入门系列 — 5 查询语法

原创

已于 2024-02-02 14:23:36 修改 · 1.5k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#es #数据库 #elasticsearch #nosql

于 2020-05-31 21:04:17 首次发布

本文深入探讨Elasticsearch查询机制，覆盖查询与过滤模式、请求体查询、复合查询结构及查询精度控制等内容，旨在帮助读者掌握高效数据检索技巧。

简单写一个ES系列，希望对NewSql、检索有兴趣的同学可以快速入手，争取在7月份完成该系列文章

ES入门系列

1、Query String查询

# 查询在 tweet 类型中 tweet 字段包含 elasticsearch 单词的所有文档
GET /_all/tweet/_search?q=tweet:elasticsearch
# 上面等同于
GET /_all/tweet/_search?q=+name:john +tweet:mary
# 下面语句搜索返回包含 mary 的所有文档。对 _all 字段进行查找，除非设置特定字段，否则查询字符串就使# # 用 _all 字段进行搜索
GET GET /_search?q=mary

当索引一个文档的时候，Elasticsearch 取出所有字段的值拼接成一个大的字符串，作为 _all 字段进行索引。例如，当索引这个文档时：

{
    "tweet":    "However did I manage before Elasticsearch?",
    "date":     "2014-09-14",
    "name":     "Mary Jones",
    "user_id":  1
}

这就好似增加了一个名叫 _all 的额外字段：

"However did I manage before Elasticsearch? 2014-09-14 Mary Jones 1"

注意：刚开始开发一个应用时，_all 字段是一个很实用的特性。之后，你会发现如果搜索时用指定字段来代替 _all 字段，将会更好控制搜索结果。当 _all 字段不再有用的时候，可以将它置为失效

查询字符串搜索允许任何用户在索引的任意字段上执行可能较慢且重量级的查询，这可能会暴露隐私信息，甚至将集群拖垮。因为这些原因，不推荐直接向用户暴露查询字符串搜索功能，除非对于集群和数据来说非常信任他们。相反，我们经常在生产环境中更多地使用功能全面的 request body 查询API，除了能完成以上所有功能，还有一些附加功能。

2、请求体查询

Elasticsearch 使用的查询语言（DSL）拥有一套查询组件，这些组件可以以无限组合的方式进行搭配。包括查询模式和过滤模式

查询模式：查询就变成了一个“评分”的查询。和不评分的查询类似，也要去判断这个文档是否匹配，同时它还需要判断这个文档匹配的有多好（匹配程度如何）。匹配程度越好评分越高，评分查询计算每一个文档与此查询的 相关程度，同时将这个相关程度分配给表示相关性的字段 _score，并且按照相关性对匹配到的文档进行排序。

过滤模式：查询被设置成一个“不评分”或者“过滤”查询。即，这个查询只是简单的问一个问题：“这篇文档是否匹配？”。回答也是非常的简单，yes 或者 no ，二者必居其一。

查询差别：过滤查询（Filtering queries）只是简单的检查包含或者排除，这就使得计算起来非常快。考虑到至少有一个过滤查询（filtering query）的结果是 “稀少的”（很少匹配的文档），并且经常使用不评分查询（non-scoring queries），结果会被缓存到内存中以便快速读取。评分查询（scoring queries）不仅仅要找出匹配的文档，还要计算每个匹配文档的相关性，计算相关性使得它们比不评分查询费力的多。同时，查询结果并不缓存。
性能区别：由于倒排索引（inverted index），一个简单的评分查询在匹配少量文档时可能与一个涵盖百万文档的filter表现的一样好，甚至会更好。但是在一般情况下，一个filter 会比一个评分的query性能更优异，并且每次都表现的很稳定。
选取：使用查询（query）语句来进行全文搜索或者其它任何需要影响 相关性得分 的搜索。除此以外的情况都使用过滤（filters)

一旦组成了词项列表，这个查询会对每个词项逐一执行底层的查询，再将结果