Elasticsearch权威指南：理解相关性评分机制-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00686/article/details/148575867

Elasticsearch权威指南：理解相关性评分机制

elasticsearch-definitive-guide The Definitive Guide to Elasticsearch 项目地址: https://gitcode.com/gh_mirrors/el/elasticsearch-definitive-guide

什么是相关性评分？

在Elasticsearch中，搜索结果默认按照相关性评分（relevance score）降序排列。那么，这个相关性评分究竟是什么？它是如何计算出来的呢？

TF/IDF相似度算法

Elasticsearch默认使用**词频/逆文档频率（TF/IDF）**算法来计算相关性评分，该算法考虑三个核心因素：

词频（Term Frequency）：
- 词项在字段中出现的频率
- 出现次数越多，相关性越高
- 例如：一个字段中出现5次搜索词比只出现1次的相关性更高
逆文档频率（Inverse Document Frequency）：
- 词项在整个索引中出现的频率
- 出现越频繁的词项，权重越低
- 常见词（如"the"、"a"）的权重低于罕见词
字段长度归一化（Field-length Norm）：
- 字段长度影响评分
- 较短的字段中出现的词项权重更高
- 例如：在title字段出现的词项比在长content字段出现的相同词项权重更高

复合查询的评分计算

当使用布尔查询等复合查询时，Elasticsearch会合并各个子查询的评分来计算文档的总体_score。相关性不仅适用于全文搜索，也适用于简单的yes/no子句——匹配的子句越多，_score越高。

理解评分计算过程

对于复杂的查询，理解_score的具体计算过程可能很困难。Elasticsearch提供了explain参数来展示详细的评分解释。

使用explain参数

通过在查询中添加explain=true参数，可以获取每个搜索结果的评分解释：

GET /_search?explain
{
   "query": { "match": { "tweet": "honeymoon" }}
}

响应结果中会包含_explanation字段，详细说明评分的计算过程：

总体描述：说明计算的是哪个字段中哪个词项的权重
词频（tf）：显示词项在文档中出现的频率
逆文档频率（idf）：显示词项在整个索引中的出现情况
字段长度归一化（fieldNorm）：显示字段长度对评分的影响

解释API的进阶使用

除了在搜索时使用explain参数，还可以使用专门的_explainAPI来分析特定文档匹配或未匹配的原因：

GET /us/tweet/12/_explain
{
   "query": {
      "bool": {
         "filter": { "term": { "user_id": 2 }},
         "must": { "match": { "tweet": "honeymoon" }}
      }
   }
}

响应中会明确指出文档未匹配的具体原因，例如某个过滤条件阻止了匹配。