ElasticSearch（八）-排序（相关性算法）

最新推荐文章于 2025-07-13 11:22:08 发布

翻译最新推荐文章于 2025-07-13 11:22:08 发布 · 1.3w 阅读

文章标签：

20 篇文章

订阅专栏

本文介绍Elasticsearch中的排序方法，包括日期和字符串排序，并详细解释了相关性评分的计算原理及其影响因素，如TF/IDF、词频和文档频等。

1.排序

Sort排序，如果是date，会转化成毫秒数；

如果强制计算其相关性，可以设置track_scores为true

默认排序：字段默认顺序排序，_score默认倒序

  GET /_search?sort=date:desc&sort=_score&q=search 
  "sort": {
    "dates": {
        "order": "asc",
        "mode":  "min"//默认的模式
    }
}

2.字符串排序

  多值字段：一个字段在ES中可能有多个含义;即可以使用多个分析器进行分词和排序；

            可以设置一个字段既可以被搜索，又可以分组统计或排序

  对index设为annlyzed的字段排序将会耗费大量内存，因为分词之后统计可想而知；

3.相关性简介

相关性评分越高，_score越大，应该反过来；

评分的计算方式根据不同的查询类型，不同的查询语句决定：

Fuzzy查询会计算与关键词的拼写相似度；

Terms查询会计算找到的内容与关键词组成部分匹配的百分比；

相似度算法：TF/IDF;检索词频率/反向文档频率

（1）检索词频率：检索词在该字段出现的频率越高相关性越高

（2）反向文档频率：每个检索词在索引中出现的频率；频率越高，相关性越低。这是检测检索词在文档中的重要性；

（3）字段长度准则：字段长度越长，相关性越低。

 理解评分标准

   可以使用explain参数查看评分细节，但是生产环境不要用，代价太大，仅供调试；

   从中可知：1.词频率和文档频率都是每个分片计算出来的，不是索引

             2._explaination包含的入口，采用的那种模式，计算的结果详情

4.字段数据

   为了提高排序效率，ES会将所有的字段加载到内存，叫做数据字段。

本文出处：http://blog.youkuaiyun.com/shan1369678/article/details/51455171