ElasticSearch的match和match_phrase查询

问题:

索引中有『第十人民医院』这个字段,使用IK分词结果如下 :

POST http://localhost:9200/development_hospitals/_analyze?pretty&field=hospital.names&analyzer=ik

{
  "tokens": [
    {
      "token": "第十",
      "start_offset": 0,
      "end_offset": 2,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "十人",
      "start_offset": 1,
      "end_offset": 3,
      "type": "CN_WORD",
      "position": 1
    },
    {
      "token": "十",
      "start_offset": 1,
      "end_offset": 2,
      "type": "TYPE_CNUM",
      "position": 2
    },
    {
      "token": "人民医院",
      "start_offset": 2,
      "end_offset": 6,
      "type": "CN_WORD",
      "position": 3
    },
    {
      "token": "人民",
      "start_offset": 2,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 4
    },
    {
      "token": "人",
      "start_offset": 2,
      "end_offset": 3,
      "type": "COUNT",
      "position": 5
    },
    {
      "token": "民医院",
      "start_offset": 3,
      "end_offset": 6,
      "type": "CN_WORD",
      "position": 6
    },
    {
      "token": "医院",
      "start_offset": 4,
      "end_offset": 6,
      "type": "CN_WORD",
      "position": 7
    }
  ]
}

使用Postman构建match查询:

可以得到结果,但是使用match_phrase查询『第十』却没有任何结果

问题分析:

参考文档 The Definitive Guide [2.x] | Elastic

phrase搜索跟关键字的位置有关, 『第十』采用ik_max_word分词结果如下

{
  "tokens": [
    {
      "token": "第十",
      "start_offset": 0,
      "end_offset": 2,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "十",
      "start_offset": 1,
      "end_offset": 2,
      "type": "TYPE_CNUM",
      "position": 1
    }
  ]
}
虽然『第十』和『十』都可以命中,但是match_phrase的特点是分词后的相对位置也必须要精准匹配,『第十人民医院』采用id_max_word分词后,『第十』和『十』之间有一个『十人』,所以无法命中。

解决方案:

采用ik_smart分词可以避免这样的问题,对『第十人民医院』和『第十』采用ik_smart分词的结果分别是:

{
  "tokens": [
    {
      "token": "第十",
      "start_offset": 0,
      "end_offset": 2,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "人民医院",
      "start_offset": 2,
      "end_offset": 6,
      "type": "CN_WORD",
      "position": 1
    }
  ]
}
{
  "tokens": [
    {
      "token": "第十",
      "start_offset": 0,
      "end_offset": 2,
      "type": "CN_WORD",
      "position": 0
    }
  ]
}

稳稳命中

最佳实践:

采用match_phrase匹配,结果会非常严格,但是也会漏掉相关的结果,个人觉得混合两种方式进行bool查询比较好,并且对match_phrase匹配采用boost加权,比如对name进行2种分词并索引,ik_smart分词采用match_phrase匹配,ik_max_word分词采用match匹配,如:

{
  "query": {
    "bool": {
      "should": [
          {"match_phrase": {"name1": {"query": "第十", "boost": 2}}},
          {"match": {"name2": "第十"}}
      ]
    }
  },
  explain: true

}

转自:https://zhuanlan.zhihu.com/p/25970549

### ElasticSearch 中 `match_phrase_prefix` 的使用说明 `match_phrase_prefix` 是一种用于短语匹配并支持前缀模糊查询的功能。它能够将输入的查询字符串进行分词处理,并将最后一个分词视为前缀来查找所有可能的匹配项[^3]。 #### 基本语法 以下是 `match_phrase_prefix` 查询的基本结构: ```json { "query": { "match_phrase_prefix": { "<field>": { "query": "<phrase_with_optional_suffix>" } } } } ``` - `<field>` 表示要搜索的目标字段名称。 - `<phrase_with_optional_suffix>` 是希望匹配的短语,其中最后的部分会被当作前缀来进行匹配。 #### 示例解析 假设有一个名为 `kibana_sample_data_ecommerce` 的索引,其数据包含客户姓名 (`customer_full_name`) 字段。如果想找到名字以 "Eddie" 开头的所有记录,则可以运行如下查询: ```json GET kibana_sample_data_ecommerce/_search { "query": { "match_phrase_prefix": { "customer_full_name": { "query": "Eddie" } } } } ``` 上述查询会返回诸如 `"Eddie Underwood"` `"Eddie Utest"` 这样的结果,因为这些条目的名字部分均以 `"Eddie"` 起始。 #### 特性行为特点 1. **短语匹配** 它不仅限于单个词语的前缀匹配,还允许整个短语作为基础条件的一部分参与筛选过程。例如,在文档中寻找类似于 `"quick brown fox jumps over lazy dog"` 的句子片段时非常有用[^1]。 2. **自动分词机制** 输入的查询串会被依据目标字段所关联的分析器规则拆分成多个独立单元 (tokens)[^4]。之后再利用最后一个 token 实现基于前缀的进一步过滤操作。 3. **性能考量** 尽管功能强大,但由于涉及复杂的内部计算逻辑以及潜在的大规模候选集扫描动作,因此相较于其他简单类型的查询而言可能会消耗更多资源时间成本。所以在实际应用过程中需要注意优化设计策略以减少不必要的开销影响整体效率表现[^2]。 #### 多字段联合查询扩展案例 除了单独作用在一个特定属性上之外,还可以通过组合方式实现跨多列的同时检索需求。下面展示了一个例子,演示如何同时针对两个不同维度的数据源实施类似的约束限定: ```json GET my_index/_search { "query": { "bool": { "should": [ { "match_phrase_prefix": { "title": { "query": "learning ma" } } }, { "match_phrase_prefix": { "description": { "query": "introduction to elasti" } } } ] } } } ``` 此脚本旨在找出那些标题里含有像 `"learning machine learning"` 或描述中有类似表述为 `"introduction to elastic search engine architecture"` 等特性的项目实例集合。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值