ES七| elasticsearch中的排序过程

本文档介绍了Elasticsearch中如何进行字段排序,包括默认的按相关性排序和自定义字段排序。相关性分数通过_score字段表示,而过滤查询不涉及此分数。在排序时,可以指定多个字段实现多级排序。此外,对于多值字段,可以使用min、max等模式进行排序。文章还探讨了相关性计算的TF/IDF算法,以及如何通过explain参数查看评分详情。最后,讨论了字段数据的概念,它用于排序和聚合操作,会占用内存,但能提高效率。

免责声明:本专栏的内容都是在读了《Elasticsearch权威指南( 中文版)》书籍后整理的读后感及部分内容笔记,具体内容请查阅原著内容。

引言

默认情况下, 结果集会按照相关性进行排序 -- 相关性越高, 排名越靠前。在ElasticSearch的查询结果中, 相关性分值会用 _score 字段来给出一个浮点型的数值, 所以默认情况下, 结果集以 _score 进行倒序排列。过滤语句与 _score 没有关系, 但是有隐含的查询条件 match_all 为所有的文档的 _score设值为 1 。 也就相当于所有的文档相关性是相同的。

字段值排序

下面例子中, 对结果集按照时间排序, 这也是最常见的情形, 将最新的文档排列靠前。 我们使用 sort 参数进行排序:

GET /_search
{
    "query" : {
        "filtered" : {
            "filter" : { "term" : { "user_id" : 1 }}
        }
    },
    "sort": { "date": { "order": "desc" }}
}

返回结果如下所示:

"hits" : {
    "total" : 6,
    "max_score" : null, <1>
    "hits" : [ {
        "_index" : "us",
        "_type" : "tweet",
        "_id" : "14",
        "_score" : null, <1>
        "_source" : {
            "date": "2014-09-24",
            ...
        },
        "sort" : [ 1411516800000 ] <2>
    },
    ...]
}

两个需要注意的地方:

<1> _score 字段没有经过计算, 因为它没有用作排序。

<2> date 字段被转为毫秒当作排序依据。

首先, 在每个结果中增加了一个 sort 字段, 它所包含的值是用来排序的。 在这个例子当中date 字段在内部被转为毫秒, 即长整型数字 1411516800000 等同于日期字符串 2014-09-2400:00:00 UTC 。

其次就是 _score 和 max_score 字段都为 null 。 计算 _score 是比较消耗性能的, 而且通常主要用作排序 -- 我们不是用相关性进行排序的时候, 就不需要统计其相关性。 如果你想强制计算其相关性, 可以设置 track_scores 为 true 。

此外,作为缩写, 你可以只指定要排序的字段名称,字段值默认以顺序排列, 而 _score 默认以倒序排列:

"sort": "number_of_children"

如果我们想要合并一个查询语句

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值