elastic search中best fields策略

最新推荐文章于 2025-06-28 16:46:05 发布

hsj1213522415

最新推荐文章于 2025-06-28 16:46:05 发布

阅读量619

点赞数

CC 4.0 BY-SA版权

分类专栏： elastic search

本文链接：https://blog.youkuaiyun.com/hsj1213522415/article/details/96603405

elastic search 专栏收录该内容

18 篇文章

订阅专栏

本文探讨了在Elasticsearch中如何实现多字段搜索，特别是best fields策略和dis_max语法的应用。best fields策略强调在单个字段内匹配更多关键词的重要性，而dis_max则选择最高得分的查询。然而，当涉及多个查询时，tie_breaker参数变得关键，它允许将其他查询的分数纳入总分计算，以得到更准确的搜索结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

需求：搜索title或content中包含java或solution的帖子？

进行multi-field多字段搜索

GET /forum/article/_search
{
    "query": {
        "bool": {
            "should": [
                { "match": { "title": "java solution" }},
                { "match": { "content":  "java solution" }}
            ]
        }
    }
}

结果分析：

期望的是doc5，结果是doc2,doc4排在了前面

计算每个document的relevance score：每个query的分数，乘以matched query数量，除以总query数量

doc4的分数：

{ "match": { "title": "java solution" }}，针对doc4，有一个分数
{ "match": { "content":  "java solution" }}，针对doc4，有一个分数

所以是两个分数加起来，比如说，1.1 + 1.2 = 2.3
matched query数量 = 2
总query数量 = 2

2.3 * 2 / 2 = 2.3

doc5的分数：

{ "match": { "title": "java solution" }}，针对doc5，是没有分数的
{ "match": { "content":  "java solution" }}，针对doc5，是有一个分数的

所以说，只有一个query是有分数的，比如2.3
matched query数量 = 1
总query数量 = 2

2.3 * 1 / 2 = 1.15

doc5的分数 = 1.15 < doc4的分数 = 2.3

怎么解决：利用best fields策略，dis_max语法，什么是best fields策略？

best fields策略：搜索到的结果，应该是某一个field中匹配到了尽可能多的关键词，被排在前面；而不是尽可能多的field匹配到了少数的关键词，排在了前面

dis_max语法，直接取多个query中，分数最高的那一个query的分数即可

{ "match": { "title": "java solution" }}，针对doc4，分数为1.1
{ "match": { "content":  "java solution" }}，针对doc4，分数为1.2
取最大分数，1.2

{ "match": { "title": "java solution" }}，针对doc5，没有分数
{ "match": { "content":  "java solution" }}，针对doc5，分数为2.3
取最大分数，2.3

然后doc4的分数 = 1.2 < doc5的分数 = 2.3，所以doc5就可以排在更前面的地方，符合我们的需要

GET /forum/article/_search
{
    "query": {
        "dis_max": {
            "queries": [
                { "match": { "title": "java solution" }},
                { "match": { "content":  "java solution" }}
            ]
        }
    }
}

注意：尽管使用了best fields策略，但是还是有不符合实际需要的场景出现：

比如搜索title或content中包含java beginner的帖子

GET /forum/article/_search
{
    "query": {
        "dis_max": {
            "queries": [
                { "match": { "title": "java beginner" }},
                { "match": { "body":  "java beginner" }}
            ]
        }
    }
}

可能在实际场景中出现的一个情况是这样的：

（1）某个帖子，doc1，title中包含java，content不包含java beginner任何一个关键词
（2）某个帖子，doc2，content中包含beginner，title中不包含任何一个关键词
（3）某个帖子，doc3，title中包含java，content中包含beginner
（4）最终搜索，可能出来的结果是，doc1和doc2排在doc3的前面，而不是我们期望的doc3排在最前面

原因是dis_max，只是取分数最高的那个query的分数而已，完全不考虑其他query的分数。

解决办法：使用tie_breaker将其他query的分数也考虑进去

tie_breaker参数的意义：将其他query的分数，乘以tie_breaker，然后综合与最高分数的那个query的分数，综合在一起进行计算
，tie_breaker的值，在0~1之间，是个小数，就ok。

GET /forum/article/_search
{
    "query": {
        "dis_max": {
            "queries": [
                { "match": { "title": "java beginner" }},
                { "match": { "body":  "java beginner" }}
            ],
            "tie_breaker": 0.3
        }
    }
}

GET /forum/article/_search
{
  "query": {
    "multi_match": {
        "query":                "java solution",
        "type":                 "best_fields", 
        "fields":               [ "title^2", "content" ],
        "tie_breaker":          0.3,
        "minimum_should_match": "50%" 
    }
  } 
}

等同于

GET /forum/article/_search
{
  "query": {
    "dis_max": {
      "queries":  [
        {
          "match": {
            "title": {
              "query": "java beginner",
              "minimum_should_match": "50%",
	      "boost": 2
            }
          }
        },
        {
          "match": {
            "body": {
              "query": "java beginner",
              "minimum_should_match": "30%"
            }
          }
        }
      ],
      "tie_breaker": 0.3
    }
  } 
}