Elasticsearch Query DSL 整理总结（三）—— Match Phrase Query 和 Match Phrase Prefix Query

最新推荐文章于 2025-03-25 17:18:19 发布

dianqiulai2465

最新推荐文章于 2025-03-25 17:18:19 发布

阅读量1.1k

点赞数

文章标签：大数据 java

原文链接：http://www.cnblogs.com/reycg-blog/p/10012238.html

版权

引言
Match Phase Query
Match Phrase 前缀查询
- max_expansions
小结
参考文档
系列文章列表
- Query DSL
- Java Rest Client API

引言

今天再读庄子的《逍遥游》，其中鲲鹏之扶摇直上九万里之气势，蜩（tiao）与学鸠之渺小之对比，令人印象深刻，并对鲲鹏之志心生向往。而郭象在注《庄子》卷中却说，"苟足于其性，则虽大鹏无以自贵于小鸟，小鸟无羡于天池，而荣愿有余矣。故小大虽殊，逍遥一也。"观看自身，虽然不是什么领导，老总，但也完全不必感到为职业生涯忧虑，只要热爱程序员这个工作，享受编码的乐趣，做到 80 岁又有何妨。

书归正传，今天我们聊聊 Match Phase Query。

Match Phase Query

match_phrase 查询针对的是一个语句，比如 "like football", 分析时也会将整个语句作为整体,而不会像上篇的 match 查询会将整个语句拆分为单个词条。

举个例子，创建一个 match_phase type 并塞进去一个文档, message 是 I like swimming and riding!

PUT matchphasetest
{}

PUT matchphasetest/_mapping/match_phase
{
  "properties": {
    "message": {
      "type": "text"
    }
  }
}

PUT matchphasetest/match_phase/1
{
  "message": "I like swimming and riding!"
}

GET matchphasetest/_search
{
  "query": {
    "match_phrase": {
      "message": "I like swimming"
    }
  }
}

默认使用 match_phrase 时会精确匹配查询的短语，需要全部单词和顺序要完全一样，标点符号除外。

slop 参数

这种精确匹配在大部分情况下显得太严苛了，有时我们想要包含 ""I like swimming and riding!"" 的文档也能够匹配 "I like riding"。这时就要以用到 "slop" 参数来控制查询语句的灵活度。

slop 参数告诉 match_phrase 查询词条相隔多远时仍然能将文档视为匹配什么是相隔多远？意思是说为了让查询和文档匹配你需要移动词条多少次？

以 "I like swimming and riding!" 的文档为例，想匹配 "I like riding"，只需要将 "riding" 词条向前移动两次，因此设置 slop 参数值为 2，就可以匹配到。

GET matchphasetest/_search
{
  "query": {
    "match_phrase": {
      "message": {
        "query": "I like riding",
        "slop": 2
      }
    }
  }
}

analyzer 参数

match_phrase 语句也可以设置 analyzer 参数来定义查询语句时对其中词条执行的分析过程。

默认情况下，使用的是创建 mapping 时的分析器，如果没有指定就会使用默认的查询分析器。这里举个例子（只是如何使用）

GET /_search
{
    "query": {
        "match_phrase" : {
            "message" : {
                "query" : "this is a test",
                "analyzer" : "my_analyzer"
            }
        }
    }
}

zero terms query

match_phrase 也接受 zero_terms_query 为参数，使用方式和 match查询语句相同

Match Phrase 前缀查询

match_phrase_prefix 和 match_phrase 用法是一样的，区别就在于它允许对最后一个词条前缀匹配。以上节的数据为例，查询 I like sw 就能匹配到

I like swimming and riding。

GET matchphasetest/_search
{
  "query": {
    "match_phrase_prefix": {
      "message": "I like swi"
    }
  }
}

max_expansions

官方文档中说 match_phrase_prefix 查询中有个参数 max_expansions 说的是参数 max_expansions 控制着可以与前缀匹配的词的数量，默认值是 50。

以 I like swi 查询为例，它会先查找第一个与前缀 swi 匹配的词，然后依次查找搜集与之匹配的词（按字母顺序），直到没有更多可匹配的词或当数量超过 max_expansions 时结束。

但是我在使用时，故意造出了数十个以 swi 开头的词，而将 max_expansions 的值设为 10。但是却返回了所有的结果。在 elasitc 官网也有对该问题的讨论, 也是没有找到答案。这个问题作为一个公案权且记下，如果您知道原因，麻烦告诉我，非常感谢。

这里也贴出个例子，以备后面排查

GET matchphaseprefixtest/_search
{
  "query": {
    "match_phrase_prefix": {
      "message": {
        "query": "I like sw",
        "max_expansions": 10
       }
    }
  }
}

match_phrase_prefix 用起来非常方便，能够实现输入即搜索的效果，但是也会出现问题。假如说查询 I like s 并且想要匹配 I like swimming ，结果是默认情况下它会搜索出前 50 个组合，如果前 50 个没有 swimming ，那就不会显示出结果。只能是用户继续输入后面的字母才可能匹配出结果。

要实现更好的即使搜索的特性，可以看看 completion suggester 和
Index-Time Search-as-You-Type 能不能实现。