什么时候使用分析器-优快云博客

本文探讨了Elasticsearch中全文域与精确值域的区别，重点介绍了分析器如何影响搜索结果，并展示了如何使用analyze API来理解文本分析过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

当我们索引一个文档，它的全文域被分析成词条以用来创建倒排索引。但是，当我们在全文域搜索的时候，我们需要将查询字符串通过 相同的分析过程 ，以保证我们搜索的词条格式与索引中的词条格式一致。

全文查询，理解每个域是如何定义的，因此它们可以做正确的事：

当你查询一个全文域时，会对查询字符串应用相同的分析器，以产生正确的搜索词条列表。
当你查询一个 精确值 域时，不会分析查询字符串，而是搜索你指定的精确值。

现在你可以理解在开始章节的查询为什么返回那样的结果：

date 域包含一个精确值：单独的词条 `2014-09-15`。
_all 域是一个全文域，所以分词进程将日期转化为三个词条： `2014`， `09`，和 `15`。

当我们在 _all 域查询 2014`，它匹配所有的12条推文，因为它们都含有 `2014 ：

GET /_search?q=2014              # 12 results

当我们在 _all 域查询 2014-09-15`，它首先分析查询字符串，产生匹配 `2014`， `09`，或 `15 中任意词条的查询。这也会匹配所有12条推文，因为它们都含有 2014 ：

GET /_search?q=2014-09-15        # 12 results !

当我们在 date 域查询 `2014-09-15`，它寻找精确日期，只找到一个推文：

GET /_search?q=date:2014-09-15   # 1  result

当我们在 date 域查询 `2014`，它找不到任何文档，因为没有文档含有这个精确日志：

GET /_search?q=date:2014         # 0  results !

有些时候很难理解分词的过程和实际被存储到索引中的词条，特别是你刚接触 Elasticsearch。为了理解发生了什么，你可以使用 analyze API 来看文本是如何被分析的。在消息体里，指定分析器和要分析的文本：

GET /_analyze
{
  "analyzer": "standard",
  "text": "Text to analyze"
}

结果中每个元素代表一个单独的词条：

{
   "tokens": [
      {
         "token":        "text",
         "start_offset": 0,
         "end_offset":   4,
         "type":         "<ALPHANUM>",
         "position":     1
      },
      {
         "token":        "to",
         "start_offset": 5,
         "end_offset":   7,
         "type":         "<ALPHANUM>",
         "position":     2
      },
      {
         "token":        "analyze",
         "start_offset": 8,
         "end_offset":   15,
         "type":         "<ALPHANUM>",
         "position":     3
      }
   ]
}